Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur

Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce tra...

Full description

Bibliographic Details
Main Author:	Coulom, Rémi
Language:	ENG
Published:	2002
Subjects:	[INFO:INFO_OH] Computer Science/Other Apprentissage par renforcement réseaux de neurones contrôle moteur commande optimale
Online Access:	http://tel.archives-ouvertes.fr/tel-00003985 http://tel.archives-ouvertes.fr/docs/00/04/58/36/PDF/tel-00003985.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00003985
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-000039852013-01-07T19:16:52Z http://tel.archives-ouvertes.fr/tel-00003985 http://tel.archives-ouvertes.fr/docs/00/04/58/36/PDF/tel-00003985.pdf Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur Coulom, Rémi [INFO:INFO_OH] Computer Science/Other Apprentissage par renforcement réseaux de neurones contrôle moteur commande optimale Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires. 2002-06-19 ENG PhD thesis
collection	NDLTD
language	ENG
sources	NDLTD
topic	[INFO:INFO_OH] Computer Science/Other Apprentissage par renforcement réseaux de neurones contrôle moteur commande optimale
spellingShingle	[INFO:INFO_OH] Computer Science/Other Apprentissage par renforcement réseaux de neurones contrôle moteur commande optimale Coulom, Rémi Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
description	Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires.
author	Coulom, Rémi
author_facet	Coulom, Rémi
author_sort	Coulom, Rémi
title	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
title_short	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
title_full	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
title_fullStr	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
title_full_unstemmed	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
title_sort	apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur
publishDate	2002
url	http://tel.archives-ouvertes.fr/tel-00003985 http://tel.archives-ouvertes.fr/docs/00/04/58/36/PDF/tel-00003985.pdf
work_keys_str_mv	AT coulomremi apprentissageparrenforcementutilisantdesreseauxdeneuronesavecdesapplicationsaucontrolemoteur
_version_	1716456022675030016

Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur

Similar Items