Basis Function Adaptation Methods for Cost Approximation in MDP

Basis Function Adaptation Methods for Cost Approximation in MDP

We generalize a basis adaptation method for cost approximation in Markov decision processes (MDP), extending earlier work of Menache, Mannor, and Shimkin. In our context, basis functions are parametrized and their parameters are tuned by minimizing an objective function involving the cost function a...

Full description

Bibliographic Details
Main Authors:	Yu, Huizhen (Author), Bertsekas, Dimitri P. (Contributor)
Other Authors:	Massachusetts Institute of Technology. Department of Electrical Engineering and Computer Science (Contributor), Massachusetts Institute of Technology. Laboratory for Information and Decision Systems (Contributor)
Format:	Article
Language:	English
Published:	Institute of Electrical and Electronics Engineers, 2010-10-13T18:33:03Z.
Subjects:	Article
Online Access:	Get fulltext

Similar Items

A Unifying Polyhedral Approximation Framework for Convex Optimization
by: Bertsekas, Dimitri P., et al.
Published: (2011)

Pathologies of Temporal Difference Methods in Approximate Dynamic Programming
by: Bertsekas, Dimitri P.
Published: (2011)

Approximate policy iteration: A survey and some new methods
by: Bertsekas, Dimitri P.
Published: (2012)

Convergence Results for Some Temporal Difference Methods Based on Least Squares
by: Yu, Huizhen, et al.
Published: (2012)

Q-learning and policy iteration algorithms for stochastic shortest path problems
by: Yu, Huizhen, et al.
Published: (2015)

Distributed Asynchronous Policy Iteration in Dynamic Programming
by: Bertsekas, Dimitri P., et al.
Published: (2011)

Q-Learning and Enhanced Policy Iteration in Discounted Dynamic Programming
by: Bertsekas, Dimitri P, et al.
Published: (2019)

On Boundedness of Q-Learning Iterates for Stochastic Shortest Path Problems
by: Yu, Huizhen, et al.
Published: (2015)

MDP-based Cost Estimation and Routing for Multirate Networks
by: Chin-Yin Lee, et al.
Published: (2000)

MDP for Symbian
by: Jonsson, Erik, et al.
Published: (2008)

A unified framework for temporal difference methods
by: Bertsekas, Dimitri P.
Published: (2010)

Incremental proximal methods for large scale convex optimization
by: Bertsekas, Dimitri P.
Published: (2012)

Some Basis Function Methods for Surface Approximation
by: Ong, Wen Eng
Published: (2013)

Radial basis function methods for multivariable approximation
by: Jackson, Ian Robert Hart
Published: (1988)

Multilevel adaptive radial basis function approximation using error indicators
by: Zhang, Qi
Published: (2016)

MDP IS SIGNIFICANT TO THE INDUSTRY AND SUSTAINABLE DEVELOPMENT
by: MPRC, Pusat Media & Perhubungan Awam
Published: (2016)

USING MDP FOR TELEMETRY DATA TRANSFERS
by: Chakraborti, Anirban
Published: (2002)

Incremental constraint projection methods for variational inequalities
by: Wang, Mengdi, et al.
Published: (2015)

Adaptive Linear and Normalized Combination of Radial Basis Function Networks for Function Approximation and Regression
by: Yunfeng Wu, et al.
Published: (2014-01-01)

Stochastic First-Order Methods with Random Constraint Projection
by: Wang, Mengdi, et al.
Published: (2016)

PENGARUH KUALITAS SISTEM DAN INFORMASI PADA SISTEM INFORMASI PEMBELAJARAN ONLINE TERHADAP MINAT PENGGUNA DAN PENGGUNAAN SISTEM (STUDI KASUS: SIMPONI AMIK MDP, STMIK GI MDP DAN STIE MDP)
by: Mulyati Mulyati, et al.
Published: (2017-12-01)

Stabilization of Stochastic Iterative Methods for Singular and Nearly Singular Linear Systems
by: Wang, Mengdi, et al.
Published: (2015)

Effects of 10-MDP on biomimetic remineralization and dentin bonding
by: Yu-HsuanLee, et al.
Published: (2018)

Multiagent value iteration algorithms in dynamic programming and reinforcement learning
by: Dimitri Bertsekas
Published: (2020-12-01)

MDP-based OVSF Code Assignment Scheme
by: Chun-Huan Chuang, et al.
Published: (2003)

Control of uncertain systems with a set-membership description of the uncertainty.
by: Bertsekas, Dimitri P
Published: (2005)

Regular Policies in Abstract Dynamic Programming
by: Bertsekas, Dimitri P
Published: (2018)

Complete-MDP convolutional codes over the erasure channel
by: Tomás Estevan, Virtudes
Published: (2011)

Intra-arterial injection of Tc-99m MDP
by: Ebru Salmanoglu, et al.
Published: (2016-03-01)

MDP SIGNIFIKAN DENGAN INDUSTRI DAN PEMBANGUNAN MAPAN
by: MPRC, Pusat Media & Perhubungan Awam
Published: (2016)

Effect of neurotrophic factor, MDP, on rats’ nerve regeneration
by: A.A. Fornazari, et al.
Published: (2011-04-01)

The machine duplication problem (MDP) in design of flowline layouts /
by: Ourairat, Attawit
Published: (2000)

Mdp Optimal Control under Temporal Logic Constraints
by: Ding, Xu Chu, et al.
Published: (2012)

Approximation by translates of a radial basis function
by: Hales, Stephen
Published: (2000)

L^p Bernstein Inequalities and Radial Basis Function Approximation
by: Ward, John P.
Published: (2012)

Effect of neurotrophic factor, MDP, on rats’ nerve regeneration
by: A.A. Fornazari, et al.
Published: (2011-04-01)

MDP-based CAC and Vertical Handoff in Heterogeneous Wireless Networks
by: Chien-Ta Chen, et al.
Published: (2008)

Multi-user Diversity for Flexible Communications in Wireless Networks by MDP
by: 林柔嫚
Published: (2006)

Influence and characterization of 10-MDP effects on zirconia and calcium adhesion
by: Diego Martins de Paula
Published: (2017)

Risk-Sensitive Multiagent Decision-Theoretic Planning Based on MDP and One-Switch Utility Functions
by: Wei Zeng, et al.
Published: (2014-01-01)