Real-Time Reinforcement Learning
Les processus de décision markovien (MDP), le cadre mathématiques sous-jacent à la plupart des algorithmes de l'apprentissage par renforcement (RL) est souvent utilisé d'une manière qui suppose, à tort, que l'état de l'environnement d'un agent ne change pas pendant la sélect...
Main Author: | |
---|---|
Other Authors: | |
Language: | English |
Published: |
2020
|
Subjects: | |
Online Access: | http://hdl.handle.net/1866/23789 |