Predicting vehicle trajectories with inverse reinforcement learning

Autonomous driving in urban environments is challenging because there are many agents located in the environment all with their own individual agendas. With accurate motion prediction of surrounding agents in the environment, autonomous vehicles can plan for more intelligent behaviors to achieve spe...

Full description

Bibliographic Details
Main Author: Hjaltason, Bjartur
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263154
id ndltd-UPSALLA1-oai-DiVA.org-kth-263154
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2631542019-11-19T09:47:48ZPredicting vehicle trajectories with inverse reinforcement learningengHjaltason, BjarturKTH, Skolan för elektroteknik och datavetenskap (EECS)2019Computer and Information SciencesData- och informationsvetenskapAutonomous driving in urban environments is challenging because there are many agents located in the environment all with their own individual agendas. With accurate motion prediction of surrounding agents in the environment, autonomous vehicles can plan for more intelligent behaviors to achieve specified objectives, instead of acting in a purely reactive way. The objective of this master thesis is to predict the future states of vehicles in a road network. A machine learning method is developed for trajectory prediction that consists of two steps: the first step is an inverse reinforcement learning algorithm that determines the reward function corresponding to an expert driver behavior extracted from real world driving, the second step is a deep reinforcement learning module that associates high level policies based on vehicles observations. Regular drivers take into account many factors while making tactical driving decisions, which cannot always be represented by the conventional rule-based models. In this work, a novel approach to learn the driver behavior by extracting suitable features from the training dataset is proposed. The accuracy of predictions is evaluated using the NGSIM I-80 dataset. The results show that this framework outperforms a constant velocity model when predicting further than 6 seconds into the future. Autonom körning i stadsmiljöer är utmanande eftersom det finns många agenter i miljön, alla med egna individuella agendor. Med en exakt rörelseskattning av omgivande agenter i miljön, kan autonoma fordon planera för mer intelligenta beteenden för att uppnå specifika mål, istället för en reaktiv interaktion. Målet med denna mastersuppsats är att förutsäga framtida tillstånd för fordon i ett vägnät. En maskininlärningsmetod utvecklades för rörelseskattning, bestående av två steg: det första steget är en invers förstärkningslärande (inverse reinforcement learning) algoritm som bestämmer belöningsfunktionen som motsvarar en expertbilists beteende, extraherad från verklig data. Det andra steget är en djup förstärkningslärande modul som associerar en högnivåpolicy baserad på ett fordons observationer. Vanliga förare tar hänsyn till många faktorer samtidigt när de fattar taktiska körbeslut, vilket inte alltid kan representeras av konventionella regelbaserade modeller. I detta arbete föreslås ett nytt tillvägagångssätt för att lära sig förarbeteenden genom att extrahera lämpliga funktioner från träningsdatan. Precisionen av förutsägelser utvärderas med hjälp av datasetet NGSIM I-80. Resultaten visar att denna metod överträffar en konstant hastighetsmodell när man förutspår beteenden längre än 6 sekunder in i framtiden. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263154TRITA-EECS-EX ; 2019:547application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Hjaltason, Bjartur
Predicting vehicle trajectories with inverse reinforcement learning
description Autonomous driving in urban environments is challenging because there are many agents located in the environment all with their own individual agendas. With accurate motion prediction of surrounding agents in the environment, autonomous vehicles can plan for more intelligent behaviors to achieve specified objectives, instead of acting in a purely reactive way. The objective of this master thesis is to predict the future states of vehicles in a road network. A machine learning method is developed for trajectory prediction that consists of two steps: the first step is an inverse reinforcement learning algorithm that determines the reward function corresponding to an expert driver behavior extracted from real world driving, the second step is a deep reinforcement learning module that associates high level policies based on vehicles observations. Regular drivers take into account many factors while making tactical driving decisions, which cannot always be represented by the conventional rule-based models. In this work, a novel approach to learn the driver behavior by extracting suitable features from the training dataset is proposed. The accuracy of predictions is evaluated using the NGSIM I-80 dataset. The results show that this framework outperforms a constant velocity model when predicting further than 6 seconds into the future. === Autonom körning i stadsmiljöer är utmanande eftersom det finns många agenter i miljön, alla med egna individuella agendor. Med en exakt rörelseskattning av omgivande agenter i miljön, kan autonoma fordon planera för mer intelligenta beteenden för att uppnå specifika mål, istället för en reaktiv interaktion. Målet med denna mastersuppsats är att förutsäga framtida tillstånd för fordon i ett vägnät. En maskininlärningsmetod utvecklades för rörelseskattning, bestående av två steg: det första steget är en invers förstärkningslärande (inverse reinforcement learning) algoritm som bestämmer belöningsfunktionen som motsvarar en expertbilists beteende, extraherad från verklig data. Det andra steget är en djup förstärkningslärande modul som associerar en högnivåpolicy baserad på ett fordons observationer. Vanliga förare tar hänsyn till många faktorer samtidigt när de fattar taktiska körbeslut, vilket inte alltid kan representeras av konventionella regelbaserade modeller. I detta arbete föreslås ett nytt tillvägagångssätt för att lära sig förarbeteenden genom att extrahera lämpliga funktioner från träningsdatan. Precisionen av förutsägelser utvärderas med hjälp av datasetet NGSIM I-80. Resultaten visar att denna metod överträffar en konstant hastighetsmodell när man förutspår beteenden längre än 6 sekunder in i framtiden.
author Hjaltason, Bjartur
author_facet Hjaltason, Bjartur
author_sort Hjaltason, Bjartur
title Predicting vehicle trajectories with inverse reinforcement learning
title_short Predicting vehicle trajectories with inverse reinforcement learning
title_full Predicting vehicle trajectories with inverse reinforcement learning
title_fullStr Predicting vehicle trajectories with inverse reinforcement learning
title_full_unstemmed Predicting vehicle trajectories with inverse reinforcement learning
title_sort predicting vehicle trajectories with inverse reinforcement learning
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-263154
work_keys_str_mv AT hjaltasonbjartur predictingvehicletrajectorieswithinversereinforcementlearning
_version_ 1719293030327910400