Sur les abstractions et les projections des processus décisionnels de Markov de grande taille

Les processus décisionnels de Markov (MDP) sont un formalisme mathématique des domaines de l'intelligence artificielle telle que la planification, l'apprentissage automatique, l'apprentissage par renforcement... Résoudre un MDP permet d'identifier la stratégie (politique) optimal...

Full description

Bibliographic Details
Main Author:	Tagorti, Manel
Other Authors:	Université de Lorraine
Language:	fr
Published:	2015
Subjects:	Processus décisionnels de Markov Abstractions Vitesse de convergence Borne de performance Markov Decision Processes Rate of convergence Performance bound 006.3
Online Access:	http://www.theses.fr/2015LORR0005/document

id	ndltd-theses.fr-2015LORR0005
record_format	oai_dc
spelling	ndltd-theses.fr-2015LORR00052019-05-24T03:32:50Z Sur les abstractions et les projections des processus décisionnels de Markov de grande taille On the abstractions and projections of Large Markov Decision Processes Processus décisionnels de Markov Abstractions Vitesse de convergence Borne de performance Markov Decision Processes Abstractions Rate of convergence Performance bound 006.3 Les processus décisionnels de Markov (MDP) sont un formalisme mathématique des domaines de l'intelligence artificielle telle que la planification, l'apprentissage automatique, l'apprentissage par renforcement... Résoudre un MDP permet d'identifier la stratégie (politique) optimale d'un agent en interaction avec un environnement stochastique. Lorsque la taille de ce système est très grande il devient difficile de résoudre ces processus par les moyens classiques. Cette thèse porte sur la résolution des MDP de grande taille. Elle étudie certaines méthodes de résolutions: comme les abstractions et les méthodes dites de projection. Elle montre les limites de certaines abstractions et identifie certaines structures "les bisimulations" qui peuvent s'avérer intéressantes pour une résolution approchée du problème. Cette thèse s'est également intéressée à une méthode de projection l'algorithme Least square temporal difference LSTD(λ). Une estimation de la borne sur la vitesse de convergence de cet algorithme a été établie avec une mise en valeur du rôle joué par le paramètre [lambda]. Cette analyse a été étendue pour déduire une borne de performance pour l'algorithme Least square non stationary policy iteration LS(λ)NSPI en estimant la borne d'erreur entre la valeur calculée à une itération fixée et la valeur sous la politique optimale qu'on cherche à identifier Markov Decision Processes (MDP) are a mathematical formalism of many domains of artifical intelligence such as planning, machine learning, reinforcement learning... Solving an MDP means finding the optimal strategy or policy of an agent interacting in a stochastic environment. When the size of this system becomes very large it becomes hard to solve this problem with classical methods. This thesis deals with the resolution of MDPs with large state space. It studies some resolution methods such as: abstractions and the projection methods. It shows the limits of some approachs and identifies some structures that may be interesting for the MDP resolution. This thesis focuses also on projection methods, the Least square temporal difference algorithm LSTD(λ). An estimate of the rate of the convergence of this algorithm has been derived with an emphasis on the role played by the parameter [lambda]. This analysis has then been generalized to the case of Least square non stationary policy iteration LS(λ)NSPI . We compute a performance bound for LS([lambda])NSPI by bounding the error between the value computed given a fixed iteration and the value computed under the optimal policy, that we aim to determine Electronic Thesis or Dissertation Text fr http://www.theses.fr/2015LORR0005/document Tagorti, Manel 2015-02-03 Université de Lorraine Hoffmann, Jorg Scherrer, Bruno
collection	NDLTD
language	fr
sources	NDLTD
topic	Processus décisionnels de Markov Abstractions Vitesse de convergence Borne de performance Markov Decision Processes Abstractions Rate of convergence Performance bound 006.3
spellingShingle	Processus décisionnels de Markov Abstractions Vitesse de convergence Borne de performance Markov Decision Processes Abstractions Rate of convergence Performance bound 006.3 Tagorti, Manel Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
description	Les processus décisionnels de Markov (MDP) sont un formalisme mathématique des domaines de l'intelligence artificielle telle que la planification, l'apprentissage automatique, l'apprentissage par renforcement... Résoudre un MDP permet d'identifier la stratégie (politique) optimale d'un agent en interaction avec un environnement stochastique. Lorsque la taille de ce système est très grande il devient difficile de résoudre ces processus par les moyens classiques. Cette thèse porte sur la résolution des MDP de grande taille. Elle étudie certaines méthodes de résolutions: comme les abstractions et les méthodes dites de projection. Elle montre les limites de certaines abstractions et identifie certaines structures "les bisimulations" qui peuvent s'avérer intéressantes pour une résolution approchée du problème. Cette thèse s'est également intéressée à une méthode de projection l'algorithme Least square temporal difference LSTD(λ). Une estimation de la borne sur la vitesse de convergence de cet algorithme a été établie avec une mise en valeur du rôle joué par le paramètre [lambda]. Cette analyse a été étendue pour déduire une borne de performance pour l'algorithme Least square non stationary policy iteration LS(λ)NSPI en estimant la borne d'erreur entre la valeur calculée à une itération fixée et la valeur sous la politique optimale qu'on cherche à identifier === Markov Decision Processes (MDP) are a mathematical formalism of many domains of artifical intelligence such as planning, machine learning, reinforcement learning... Solving an MDP means finding the optimal strategy or policy of an agent interacting in a stochastic environment. When the size of this system becomes very large it becomes hard to solve this problem with classical methods. This thesis deals with the resolution of MDPs with large state space. It studies some resolution methods such as: abstractions and the projection methods. It shows the limits of some approachs and identifies some structures that may be interesting for the MDP resolution. This thesis focuses also on projection methods, the Least square temporal difference algorithm LSTD(λ). An estimate of the rate of the convergence of this algorithm has been derived with an emphasis on the role played by the parameter [lambda]. This analysis has then been generalized to the case of Least square non stationary policy iteration LS(λ)NSPI . We compute a performance bound for LS([lambda])NSPI by bounding the error between the value computed given a fixed iteration and the value computed under the optimal policy, that we aim to determine
author2	Université de Lorraine
author_facet	Université de Lorraine Tagorti, Manel
author	Tagorti, Manel
author_sort	Tagorti, Manel
title	Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
title_short	Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
title_full	Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
title_fullStr	Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
title_full_unstemmed	Sur les abstractions et les projections des processus décisionnels de Markov de grande taille
title_sort	sur les abstractions et les projections des processus décisionnels de markov de grande taille
publishDate	2015
url	http://www.theses.fr/2015LORR0005/document
work_keys_str_mv	AT tagortimanel surlesabstractionsetlesprojectionsdesprocessusdecisionnelsdemarkovdegrandetaille AT tagortimanel ontheabstractionsandprojectionsoflargemarkovdecisionprocesses
_version_	1719192329198239744

Sur les abstractions et les projections des processus décisionnels de Markov de grande taille

Similar Items