Real-Time Reinforcement Learning

Les processus de décision markovien (MDP), le cadre mathématiques sous-jacent à la plupart des algorithmes de l'apprentissage par renforcement (RL) est souvent utilisé d'une manière qui suppose, à tort, que l'état de l'environnement d'un agent ne change pas pendant la sélect...

Full description

Bibliographic Details
Main Author: Ramstedt, Simon
Other Authors: Pal, Christopher
Language:English
Published: 2020
Subjects:
Online Access:http://hdl.handle.net/1866/23789