Weakly supervised learning for visual recognition
Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentatio...
Main Author: | |
---|---|
Other Authors: | |
Language: | en |
Published: |
2017
|
Subjects: | |
Online Access: | http://www.theses.fr/2017PA066142/document |
id |
ndltd-theses.fr-2017PA066142 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2017PA0661422019-12-22T04:45:26Z Weakly supervised learning for visual recognition Apprentissage faiblement supervisé pour la reconnaissance visuelle Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3 Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. Electronic Thesis or Dissertation Text en http://www.theses.fr/2017PA066142/document Durand, Thibaut 2017-09-20 Paris 6 Cord, Matthieu Thome, Nicolas |
collection |
NDLTD |
language |
en |
sources |
NDLTD |
topic |
Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3 |
spellingShingle |
Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3 Durand, Thibaut Weakly supervised learning for visual recognition |
description |
Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. === This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. |
author2 |
Paris 6 |
author_facet |
Paris 6 Durand, Thibaut |
author |
Durand, Thibaut |
author_sort |
Durand, Thibaut |
title |
Weakly supervised learning for visual recognition |
title_short |
Weakly supervised learning for visual recognition |
title_full |
Weakly supervised learning for visual recognition |
title_fullStr |
Weakly supervised learning for visual recognition |
title_full_unstemmed |
Weakly supervised learning for visual recognition |
title_sort |
weakly supervised learning for visual recognition |
publishDate |
2017 |
url |
http://www.theses.fr/2017PA066142/document |
work_keys_str_mv |
AT durandthibaut weaklysupervisedlearningforvisualrecognition AT durandthibaut apprentissagefaiblementsupervisepourlareconnaissancevisuelle |
_version_ |
1719305634635055104 |