Localisation à partir de caméra vidéo portée

L'indexation par le contenu de lifelogs issus de capteurs portés a émergé comme un enjeu à forte valeur ajoutée, permettant l'exploitation de ces nouveaux types de donnés. Rendu plus accessible par la récente disponibilité de dispositifs miniaturisés d'enregistrement, les besoins se s...

Full description

Bibliographic Details
Main Author: Dovgalecs, Vladislavs
Language:English
Published: 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00669874
http://tel.archives-ouvertes.fr/docs/00/66/98/74/PDF/vlad_thesis_-_FINAL.pdf
http://tel.archives-ouvertes.fr/docs/00/66/98/74/ANNEX/DOVGALECS_presentation.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00669874
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006698742014-10-14T03:42:01Z http://tel.archives-ouvertes.fr/tel-00669874 http://tel.archives-ouvertes.fr/docs/00/66/98/74/PDF/vlad_thesis_-_FINAL.pdf http://tel.archives-ouvertes.fr/docs/00/66/98/74/ANNEX/DOVGALECS_presentation.pdf Localisation à partir de caméra vidéo portée Dovgalecs, Vladislavs [INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image image-based localization wearable video indexing semi-supervised learning time-aware co-training kernel methods confidence temporal accumulation L'indexation par le contenu de lifelogs issus de capteurs portés a émergé comme un enjeu à forte valeur ajoutée, permettant l'exploitation de ces nouveaux types de donnés. Rendu plus accessible par la récente disponibilité de dispositifs miniaturisés d'enregistrement, les besoins se sont accrus pour l'extraction automatique d'informations pertinentes à partir de contenus générés par de tels dispositifs. Entre autres applications, la localisation en environnement intérieur est l'un des verrous que nous abordons dans cette thèse. Beaucoup des solutions existantes pour la localisation fonctionnent insuffisamment bien ou nécessitent une intervention manuelle importante. Dans cette thèse, nous abordons le problème de la localisation topologique à partir de séquences vidéo issues d'une camera portée en utilisant une approche purement visuelle. Ce travail complète d'extraction des descripteurs visuels de bas niveaux jusqu'à l'estimation finale de la localisation à l'aide d'algorithmes automatiques. Dans ce cadre, les contributions principales de ce travail concernent l'exploitation efficace des informations apportées par des descripteurs visuels multiples, par les images non étiquetées et par la continuité temporelle de la vidéo. Ainsi, la fusion précoce et la fusion tardive des données visuelles ont été examinées et l'avantage apporté par la complémentarité des descripteurs visuels a été mis en évidence sur le problème de la localisation. En raison de difficulté à obtenir des données étiquetées en quantités suffisantes, l'ensemble des données a été exploité ; d'une part les approches de réduction de dimensionnalité non-linéaire ont été appliquées, afin d'améliorer la taille des données à traiter et la complexité associée; d'autre part des approches semi-supervisés ont été étudiées pour utiliser l'information supplémentaire apportée par les images non étiquetées lors de la classification. Ces éléments ont été analysé séparément et ont été mis en oeuvre ensemble sous la forme d'une nouvelle méthode par co-apprentissage avec information temporelle. Finalement nous avons également exploré la question de l'invariance des descripteurs, en proposant l'utilisation d'un apprentissage invariant à la transformation spatiale, comme une autre réponse possible au manque de données annotées et à la variabilité visuelle. Ces méthodes ont été évaluées sur des séquences vidéo en environnement contrôlé accessibles publiquement pour évaluer le gain spécifique de chaque contribution. Ce travail a également été appliqué dans le cadre du projet IMMED, qui concerne l'observation et l'indexation d'activités de la vie quotidienne dans un objectif d'aide au diagnostic médical, à l'aide d'une caméra vidéo portée. Nous avons ainsi pu mettre en oeuvre le dispositif d'acquisition vidéo portée et montrer le potentiel de notre approche pour l'estimation de la localisation topologique sur un corpus présentant des conditions difficiles représentatives des données réelles. 2011-12-05 eng PhD thesis
collection NDLTD
language English
sources NDLTD
topic [INFO:INFO_TS] Computer Science/Signal and Image Processing
[INFO:INFO_TS] Informatique/Traitement du signal et de l'image
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image
image-based localization
wearable video indexing
semi-supervised learning
time-aware co-training
kernel methods
confidence
temporal accumulation
spellingShingle [INFO:INFO_TS] Computer Science/Signal and Image Processing
[INFO:INFO_TS] Informatique/Traitement du signal et de l'image
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image
image-based localization
wearable video indexing
semi-supervised learning
time-aware co-training
kernel methods
confidence
temporal accumulation
Dovgalecs, Vladislavs
Localisation à partir de caméra vidéo portée
description L'indexation par le contenu de lifelogs issus de capteurs portés a émergé comme un enjeu à forte valeur ajoutée, permettant l'exploitation de ces nouveaux types de donnés. Rendu plus accessible par la récente disponibilité de dispositifs miniaturisés d'enregistrement, les besoins se sont accrus pour l'extraction automatique d'informations pertinentes à partir de contenus générés par de tels dispositifs. Entre autres applications, la localisation en environnement intérieur est l'un des verrous que nous abordons dans cette thèse. Beaucoup des solutions existantes pour la localisation fonctionnent insuffisamment bien ou nécessitent une intervention manuelle importante. Dans cette thèse, nous abordons le problème de la localisation topologique à partir de séquences vidéo issues d'une camera portée en utilisant une approche purement visuelle. Ce travail complète d'extraction des descripteurs visuels de bas niveaux jusqu'à l'estimation finale de la localisation à l'aide d'algorithmes automatiques. Dans ce cadre, les contributions principales de ce travail concernent l'exploitation efficace des informations apportées par des descripteurs visuels multiples, par les images non étiquetées et par la continuité temporelle de la vidéo. Ainsi, la fusion précoce et la fusion tardive des données visuelles ont été examinées et l'avantage apporté par la complémentarité des descripteurs visuels a été mis en évidence sur le problème de la localisation. En raison de difficulté à obtenir des données étiquetées en quantités suffisantes, l'ensemble des données a été exploité ; d'une part les approches de réduction de dimensionnalité non-linéaire ont été appliquées, afin d'améliorer la taille des données à traiter et la complexité associée; d'autre part des approches semi-supervisés ont été étudiées pour utiliser l'information supplémentaire apportée par les images non étiquetées lors de la classification. Ces éléments ont été analysé séparément et ont été mis en oeuvre ensemble sous la forme d'une nouvelle méthode par co-apprentissage avec information temporelle. Finalement nous avons également exploré la question de l'invariance des descripteurs, en proposant l'utilisation d'un apprentissage invariant à la transformation spatiale, comme une autre réponse possible au manque de données annotées et à la variabilité visuelle. Ces méthodes ont été évaluées sur des séquences vidéo en environnement contrôlé accessibles publiquement pour évaluer le gain spécifique de chaque contribution. Ce travail a également été appliqué dans le cadre du projet IMMED, qui concerne l'observation et l'indexation d'activités de la vie quotidienne dans un objectif d'aide au diagnostic médical, à l'aide d'une caméra vidéo portée. Nous avons ainsi pu mettre en oeuvre le dispositif d'acquisition vidéo portée et montrer le potentiel de notre approche pour l'estimation de la localisation topologique sur un corpus présentant des conditions difficiles représentatives des données réelles.
author Dovgalecs, Vladislavs
author_facet Dovgalecs, Vladislavs
author_sort Dovgalecs, Vladislavs
title Localisation à partir de caméra vidéo portée
title_short Localisation à partir de caméra vidéo portée
title_full Localisation à partir de caméra vidéo portée
title_fullStr Localisation à partir de caméra vidéo portée
title_full_unstemmed Localisation à partir de caméra vidéo portée
title_sort localisation à partir de caméra vidéo portée
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00669874
http://tel.archives-ouvertes.fr/docs/00/66/98/74/PDF/vlad_thesis_-_FINAL.pdf
http://tel.archives-ouvertes.fr/docs/00/66/98/74/ANNEX/DOVGALECS_presentation.pdf
work_keys_str_mv AT dovgalecsvladislavs localisationapartirdecameravideoportee
_version_ 1716717608196112384