Learning representations for robust audio-visual scene analysis

L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques...

Full description

Bibliographic Details
Main Author: Parekh, Sanjeel
Other Authors: Université Paris-Saclay (ComUE)
Language:fr
Published: 2019
Subjects:
Online Access:http://www.theses.fr/2019SACLT015/document