Elicitation and planning in Markov decision processes with unknown rewards
Les processus décisionnels de Markov (MDPs) modélisent des problèmes de décisionsséquentielles dans lesquels un utilisateur interagit avec l’environnement et adapte soncomportement en prenant en compte les signaux de récompense numérique reçus. La solutiond’unMDP se ramène à formuler le comportement...
Main Author: | |
---|---|
Other Authors: | |
Language: | en |
Published: |
2016
|
Subjects: | |
Online Access: | http://www.theses.fr/2016USPCD011/document |