Weakly supervised learning for visual recognition

Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentatio...

Full description

Bibliographic Details
Main Author:	Durand, Thibaut
Other Authors:	Paris 6
Language:	en
Published:	2017
Subjects:	Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3
Online Access:	http://www.theses.fr/2017PA066142/document

id	ndltd-theses.fr-2017PA066142
record_format	oai_dc
spelling	ndltd-theses.fr-2017PA0661422019-12-22T04:45:26Z Weakly supervised learning for visual recognition Apprentissage faiblement supervisé pour la reconnaissance visuelle Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3 Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. Electronic Thesis or Dissertation Text en http://www.theses.fr/2017PA066142/document Durand, Thibaut 2017-09-20 Paris 6 Cord, Matthieu Thome, Nicolas
collection	NDLTD
language	en
sources	NDLTD
topic	Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3
spellingShingle	Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3 Durand, Thibaut Weakly supervised learning for visual recognition
description	Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. === This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet.
author2	Paris 6
author_facet	Paris 6 Durand, Thibaut
author	Durand, Thibaut
author_sort	Durand, Thibaut
title	Weakly supervised learning for visual recognition
title_short	Weakly supervised learning for visual recognition
title_full	Weakly supervised learning for visual recognition
title_fullStr	Weakly supervised learning for visual recognition
title_full_unstemmed	Weakly supervised learning for visual recognition
title_sort	weakly supervised learning for visual recognition
publishDate	2017
url	http://www.theses.fr/2017PA066142/document
work_keys_str_mv	AT durandthibaut weaklysupervisedlearningforvisualrecognition AT durandthibaut apprentissagefaiblementsupervisepourlareconnaissancevisuelle
_version_	1719305634635055104

Weakly supervised learning for visual recognition

Similar Items