Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition

This thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as...

Full description

Bibliographic Details
Main Author: Kartasev, Mart
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608
id ndltd-UPSALLA1-oai-DiVA.org-kth-263608
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2636082019-11-23T09:49:49ZIntegrating Reinforcement Learning into Behavior Trees by Hierarchical CompositionengKartasev, MartKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapThis thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as foreseen by an expert, they are not capable of adapting to new scenarios. The focus of the thesis is on using existing general-purpose RL methods within the framework of BTs. Deep Q-Networks (DQN) and Proximal Policy Optimisation (PPO) were embedded into BTs, using RL implementations from an open-source RL library. The experimental part of the thesis uses these nodes in a variety of scenarios of increasing complexity, demonstrating some of the benefits of combining RL and BTs. The experiments show that there are benefits to using BTs to control a set of hierarchically decomposed RL sub-tasks for solving a larger problem. Such decomposition allows for reuse of generic behaviors in different parts of a BT. By decomposing the RL problem using a BT, it is also possible to identify and replace problematic parts of a policy, as opposed to retraining the entire policy. Den här uppsatsen undersöker sätt att utvidga användningsområdet för förstärkningsinlärning (RL) till beteendeträd (BT). BT används inom fältet artificiell intelligens (AI) för att skapa modulära och reaktiva planerande agenter. BT skapade av människor kan reagera på förändringar i en värld på ett sätt som har förutsetts av en expert, men de är inte kapabla att anpassa sig till nya scenarier. Fokuset i den här uppsatsen ligger på att använda existerande RL-metoder inom ramverket för BT. Djupa Q-nätverk (DQN) och Proximal Policy Optimisation (PPO) har bäddats in i BT, där RL-implementationerna kommer från ett bibliotek som har öppen källkod. Experimenten visar att det finns fördelar med att använda BT för att kontrollera en mängd av hierarkiskt uppdelade RL-deluppgifter för att lösa ett större problem. En sådan uppdelning tillåter mer allmänna beteenden att återanvändas i olika delar av ett BT. Genom att dela upp RL-problemet med hjälp av ett BT så är det också möjligt att identifiera och ersätta problematiska delar av en policy, till skillnad från att träna om hela policyn. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608TRITA-EECS-EX ; 2019:577application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Kartasev, Mart
Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
description This thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as foreseen by an expert, they are not capable of adapting to new scenarios. The focus of the thesis is on using existing general-purpose RL methods within the framework of BTs. Deep Q-Networks (DQN) and Proximal Policy Optimisation (PPO) were embedded into BTs, using RL implementations from an open-source RL library. The experimental part of the thesis uses these nodes in a variety of scenarios of increasing complexity, demonstrating some of the benefits of combining RL and BTs. The experiments show that there are benefits to using BTs to control a set of hierarchically decomposed RL sub-tasks for solving a larger problem. Such decomposition allows for reuse of generic behaviors in different parts of a BT. By decomposing the RL problem using a BT, it is also possible to identify and replace problematic parts of a policy, as opposed to retraining the entire policy. === Den här uppsatsen undersöker sätt att utvidga användningsområdet för förstärkningsinlärning (RL) till beteendeträd (BT). BT används inom fältet artificiell intelligens (AI) för att skapa modulära och reaktiva planerande agenter. BT skapade av människor kan reagera på förändringar i en värld på ett sätt som har förutsetts av en expert, men de är inte kapabla att anpassa sig till nya scenarier. Fokuset i den här uppsatsen ligger på att använda existerande RL-metoder inom ramverket för BT. Djupa Q-nätverk (DQN) och Proximal Policy Optimisation (PPO) har bäddats in i BT, där RL-implementationerna kommer från ett bibliotek som har öppen källkod. Experimenten visar att det finns fördelar med att använda BT för att kontrollera en mängd av hierarkiskt uppdelade RL-deluppgifter för att lösa ett större problem. En sådan uppdelning tillåter mer allmänna beteenden att återanvändas i olika delar av ett BT. Genom att dela upp RL-problemet med hjälp av ett BT så är det också möjligt att identifiera och ersätta problematiska delar av en policy, till skillnad från att träna om hela policyn.
author Kartasev, Mart
author_facet Kartasev, Mart
author_sort Kartasev, Mart
title Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_short Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_full Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_fullStr Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_full_unstemmed Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
title_sort integrating reinforcement learning into behavior trees by hierarchical composition
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263608
work_keys_str_mv AT kartasevmart integratingreinforcementlearningintobehaviortreesbyhierarchicalcomposition
_version_ 1719295523728392192