Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée

Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nou...

Full description

Bibliographic Details
Main Author: Peyrache, Jean-Philippe
Other Authors: Saint-Etienne
Language:fr
Published: 2014
Subjects:
Online Access:http://www.theses.fr/2014STET4023/document
id ndltd-theses.fr-2014STET4023
record_format oai_dc
spelling ndltd-theses.fr-2014STET40232017-07-05T04:30:06Z Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée New iterative approaches with theoretical guarantees for unsupervised domain adaptation Adaptation de domaine Apprentissage automatique Apprentissage semi-supervisé Apprentissage par transfert Domain adaptation Machine learning Semi-supervised learning Learning by transfer Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nouvel axe de recherche : l’Adaptation de Domaine, dans lequel on considère que les données d’apprentissage proviennent d’une distribution (dite source) différente de celle (dite cible) dont sont issues les données de test. Les premiers travaux théoriques effectués ont débouché sur la conclusion selon laquelle une bonne performance sur le test peut s’obtenir en minimisant à la fois l’erreur sur le domaine source et un terme de divergence entre les deux distributions. Trois grandes catégories d’approches s’en inspirent : par repondération, par reprojection et par auto-étiquetage. Dans ce travail de thèse, nous proposons deux contributions. La première est une approche de reprojection basée sur la théorie du boosting et s’appliquant aux données numériques. Celle-ci offre des garanties théoriques intéressantes et semble également en mesure d’obtenir de bonnes performances en généralisation. Notre seconde contribution consiste d’une part en la proposition d’un cadre permettant de combler le manque de résultats théoriques pour les méthodes d’auto-étiquetage en donnant des conditions nécessaires à la réussite de ce type d’algorithme. D’autre part, nous proposons dans ce cadre une nouvelle approche utilisant la théorie des (epsilon, gamma, tau)-bonnes fonctions de similarité afin de contourner les limitations imposées par la théorie des noyaux dans le contexte des données structurées During the past few years, an increasing interest for Machine Learning has been encountered, in various domains like image recognition or medical data analysis. However, a limitation of the classical PAC framework has recently been highlighted. It led to the emergence of a new research axis: Domain Adaptation (DA), in which learning data are considered as coming from a distribution (the source one) different from the one (the target one) from which are generated test data. The first theoretical works concluded that a good performance on the target domain can be obtained by minimizing in the same time the source error and a divergence term between the two distributions. Three main categories of approaches are derived from this idea : by reweighting, by reprojection and by self-labeling. In this thesis work, we propose two contributions. The first one is a reprojection approach based on boosting theory and designed for numerical data. It offers interesting theoretical guarantees and also seems able to obtain good generalization performances. Our second contribution consists first in a framework filling the gap of the lack of theoretical results for self-labeling methods by introducing necessary conditions ensuring the good behavior of this kind of algorithm. On the other hand, we propose in this framework a new approach, using the theory of (epsilon, gamma, tau)- good similarity functions to go around the limitations due to the use of kernel theory in the specific context of structured data Electronic Thesis or Dissertation Text fr http://www.theses.fr/2014STET4023/document Peyrache, Jean-Philippe 2014-07-11 Saint-Etienne Sebban, Marc
collection NDLTD
language fr
sources NDLTD
topic Adaptation de domaine
Apprentissage automatique
Apprentissage semi-supervisé
Apprentissage par transfert
Domain adaptation
Machine learning
Semi-supervised learning
Learning by transfer

spellingShingle Adaptation de domaine
Apprentissage automatique
Apprentissage semi-supervisé
Apprentissage par transfert
Domain adaptation
Machine learning
Semi-supervised learning
Learning by transfer

Peyrache, Jean-Philippe
Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
description Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nouvel axe de recherche : l’Adaptation de Domaine, dans lequel on considère que les données d’apprentissage proviennent d’une distribution (dite source) différente de celle (dite cible) dont sont issues les données de test. Les premiers travaux théoriques effectués ont débouché sur la conclusion selon laquelle une bonne performance sur le test peut s’obtenir en minimisant à la fois l’erreur sur le domaine source et un terme de divergence entre les deux distributions. Trois grandes catégories d’approches s’en inspirent : par repondération, par reprojection et par auto-étiquetage. Dans ce travail de thèse, nous proposons deux contributions. La première est une approche de reprojection basée sur la théorie du boosting et s’appliquant aux données numériques. Celle-ci offre des garanties théoriques intéressantes et semble également en mesure d’obtenir de bonnes performances en généralisation. Notre seconde contribution consiste d’une part en la proposition d’un cadre permettant de combler le manque de résultats théoriques pour les méthodes d’auto-étiquetage en donnant des conditions nécessaires à la réussite de ce type d’algorithme. D’autre part, nous proposons dans ce cadre une nouvelle approche utilisant la théorie des (epsilon, gamma, tau)-bonnes fonctions de similarité afin de contourner les limitations imposées par la théorie des noyaux dans le contexte des données structurées === During the past few years, an increasing interest for Machine Learning has been encountered, in various domains like image recognition or medical data analysis. However, a limitation of the classical PAC framework has recently been highlighted. It led to the emergence of a new research axis: Domain Adaptation (DA), in which learning data are considered as coming from a distribution (the source one) different from the one (the target one) from which are generated test data. The first theoretical works concluded that a good performance on the target domain can be obtained by minimizing in the same time the source error and a divergence term between the two distributions. Three main categories of approaches are derived from this idea : by reweighting, by reprojection and by self-labeling. In this thesis work, we propose two contributions. The first one is a reprojection approach based on boosting theory and designed for numerical data. It offers interesting theoretical guarantees and also seems able to obtain good generalization performances. Our second contribution consists first in a framework filling the gap of the lack of theoretical results for self-labeling methods by introducing necessary conditions ensuring the good behavior of this kind of algorithm. On the other hand, we propose in this framework a new approach, using the theory of (epsilon, gamma, tau)- good similarity functions to go around the limitations due to the use of kernel theory in the specific context of structured data
author2 Saint-Etienne
author_facet Saint-Etienne
Peyrache, Jean-Philippe
author Peyrache, Jean-Philippe
author_sort Peyrache, Jean-Philippe
title Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
title_short Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
title_full Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
title_fullStr Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
title_full_unstemmed Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
title_sort nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée
publishDate 2014
url http://www.theses.fr/2014STET4023/document
work_keys_str_mv AT peyrachejeanphilippe nouvellesapprochesiterativesavecgarantiestheoriquespourladaptationdedomainenonsupervisee
AT peyrachejeanphilippe newiterativeapproacheswiththeoreticalguaranteesforunsuperviseddomainadaptation
_version_ 1718489878004498432