Incrementally Expanding Environment in Deep Reinforcement Learning

Tillräckligt snabb konvergens till optimala strategier är ett mål inom maskininlärning och speciellt förstärkande inlärning. Realtidslösningar till komplexa inlärningsproblem behövs för att expandera fältet till nya områden där maskininlärning tidigare varit en omöjlighet. I denna rapport introducer...

Full description

Bibliographic Details
Main Authors: Örnberg, Oscar, Nylund, Jonas
Format: Others
Language:English
Published: KTH, Skolan för teknikvetenskap (SCI) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-230754
Description
Summary:Tillräckligt snabb konvergens till optimala strategier är ett mål inom maskininlärning och speciellt förstärkande inlärning. Realtidslösningar till komplexa inlärningsproblem behövs för att expandera fältet till nya områden där maskininlärning tidigare varit en omöjlighet. I denna rapport introducerar vi en ny metod för att träna djupa Q-learning agenter i en miljö vars storlek är skalbar, i hopp om att förkorta inlärningstiden. I denna metod börjar agenten i en mycket liten miljö där den snabbt kan utforska olika situationer på en liten skala och lära sig att hantera dem. Miljön expanderar sedan bitvis när agenten har lärt sig miljön till en förbestämd standard. På sådant sätt kommer agenten inte att behövs lära om sig miljön utan kan anpassa sina kunskaper från ett mindre sammanhang till ett större. Jämförelsen mellan den Stegvis Expanderade Miljö (IEE) metoden samt den konventionella metoden att från början ge hela miljön till agenten visade att metoderna hade jämförbar prestanda i vissa fall medan IEE metoden visade sig överlägsen i andra situationer. Speciellt i scenarier med en högre learning rate så förbättrade vår metod sin strategi snabbare. Den vanliga metoden presterade aldrig bättre än IEE metoden. Vi drog slutsatsen att vår föreslagna metod är överlägsen den vanliga metoden, den är robustare i val av parametrar och presterar bättre eller lika bra i alla testade fall. === The very long times required to converge to optimal policies is a problem affecting machine learning and reinforcement learning in particular. Real-time solution on complex learning problems are necessary to expand the field into new domains where machine learning has previously been unfeasible. In this paper we introduce a novel method for training deep q-learning agents in an environment where the size can be dynamically scaled, in order to improve learning time. In this framework the agent starts in a very small environment where it can quickly experience different situations in a small scale and learn to handle them properly. As the agent learns the environment enough to reach certain predefined performance goals, the environment is expanded to increase complexity. The agent should then not have to relearn the environment completely, but simply adapt to the larger environment. This Incrementally Expanding Environment (IEE) method was compared to the conventional, deep q-learning method of training the agent on the full environment size from the beginning. Results showed that in some situations the methods performed identically, where in some situations the IEE method performed better. Particularly in scenarios with higher learning rates our framework improved its policy noticeably faster than the conventional method. The conventional method also notably never performed better than the IEE method. We thus conclude that the proposed framework is superior the the conventional one, being more robust to parameter choice and performing as well or better in all observed cases.