Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition

This thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as...

Full description

Bibliographic Details
Main Author:	Kartasev, Mart
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608

id	ndltd-UPSALLA1-oai-DiVA.org-kth-263608
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2636082019-11-23T09:49:49ZIntegrating Reinforcement Learning into Behavior Trees by Hierarchical CompositionengKartasev, MartKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapThis thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as foreseen by an expert, they are not capable of adapting to new scenarios. The focus of the thesis is on using existing general-purpose RL methods within the framework of BTs. Deep Q-Networks (DQN) and Proximal Policy Optimisation (PPO) were embedded into BTs, using RL implementations from an open-source RL library. The experimental part of the thesis uses these nodes in a variety of scenarios of increasing complexity, demonstrating some of the benefits of combining RL and BTs. The experiments show that there are benefits to using BTs to control a set of hierarchically decomposed RL sub-tasks for solving a larger problem. Such decomposition allows for reuse of generic behaviors in different parts of a BT. By decomposing the RL problem using a BT, it is also possible to identify and replace problematic parts of a policy, as opposed to retraining the entire policy. Den här uppsatsen undersöker sätt att utvidga användningsområdet för förstärkningsinlärning (RL) till beteendeträd (BT). BT används inom fältet artificiell intelligens (AI) för att skapa modulära och reaktiva planerande agenter. BT skapade av människor kan reagera på förändringar i en värld på ett sätt som har förutsetts av en expert, men de är inte kapabla att anpassa sig till nya scenarier. Fokuset i den här uppsatsen ligger på att använda existerande RL-metoder inom ramverket för BT. Djupa Q-nätverk (DQN) och Proximal Policy Optimisation (PPO) har bäddats in i BT, där RL-implementationerna kommer från ett bibliotek som har öppen källkod. Experimenten visar att det finns fördelar med att använda BT för att kontrollera en mängd av hierarkiskt uppdelade RL-deluppgifter för att lösa ett större problem. En sådan uppdelning tillåter mer allmänna beteenden att återanvändas i olika delar av ett BT. Genom att dela upp RL-problemet med hjälp av ett BT så är det också möjligt att identifiera och ersätta problematiska delar av en policy, till skillnad från att träna om hela policyn. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608TRITA-EECS-EX ; 2019:577application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Kartasev, Mart Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
description	This thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as foreseen by an expert, they are not capable of adapting to new scenarios. The focus of the thesis is on using existing general-purpose RL methods within the framework of BTs. Deep Q-Networks (DQN) and Proximal Policy Optimisation (PPO) were embedded into BTs, using RL implementations from an open-source RL library. The experimental part of the thesis uses these nodes in a variety of scenarios of increasing complexity, demonstrating some of the benefits of combining RL and BTs. The experiments show that there are benefits to using BTs to control a set of hierarchically decomposed RL sub-tasks for solving a larger problem. Such decomposition allows for reuse of generic behaviors in different parts of a BT. By decomposing the RL problem using a BT, it is also possible to identify and replace problematic parts of a policy, as opposed to retraining the entire policy. === Den här uppsatsen undersöker sätt att utvidga användningsområdet för förstärkningsinlärning (RL) till beteendeträd (BT). BT används inom fältet artificiell intelligens (AI) för att skapa modulära och reaktiva planerande agenter. BT skapade av människor kan reagera på förändringar i en värld på ett sätt som har förutsetts av en expert, men de är inte kapabla att anpassa sig till nya scenarier. Fokuset i den här uppsatsen ligger på att använda existerande RL-metoder inom ramverket för BT. Djupa Q-nätverk (DQN) och Proximal Policy Optimisation (PPO) har bäddats in i BT, där RL-implementationerna kommer från ett bibliotek som har öppen källkod. Experimenten visar att det finns fördelar med att använda BT för att kontrollera en mängd av hierarkiskt uppdelade RL-deluppgifter för att lösa ett större problem. En sådan uppdelning tillåter mer allmänna beteenden att återanvändas i olika delar av ett BT. Genom att dela upp RL-problemet med hjälp av ett BT så är det också möjligt att identifiera och ersätta problematiska delar av en policy, till skillnad från att träna om hela policyn.
author	Kartasev, Mart
author_facet	Kartasev, Mart
author_sort	Kartasev, Mart
title	Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_short	Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_full	Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_fullStr	Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_full_unstemmed	Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_sort	integrating reinforcement learning into behavior trees by hierarchical composition
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2019
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608
work_keys_str_mv	AT kartasevmart integratingreinforcementlearningintobehaviortreesbyhierarchicalcomposition
_version_	1719295523728392192

Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition

Similar Items