AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Robot Learning From a Human Expert Using Inverse Reinforcement Learning: A Deep Reinforcement Learning Approach for Industrial Applications

Authors

; ;

Term

4. term

Publication year

2019

Submitted on

Pages

109

Abstract

Industrien efterspørger i stigende grad tilpasningsdygtige modeller. Forstærkningslæring (RL) er en sådan metode, hvor en agent lærer gennem forsøg og fejl styret af en belønning. Alligevel er der få kommercielle RL-løsninger, bl.a. fordi designet er komplekst. Denne afhandling præsenterer en metode til at pege på, hvor RL skaber kompleksitet i industrielle anvendelser, og metoden blev brugt på 15 anvendelser inspireret af fire industrivirksomheder. Den største udfordring blev især fundet omkring belønningsfunktionen (det signal, der fortæller agenten, hvad den skal værdsætte). Derfor blev to lineære inverse forstærkningslæringsalgoritmer (IRL), hvor belønningsfunktionen beskrives som en lineær kombination af egenskaber (features), testet med ekspertdata (eksempler på ønsket adfærd fra eksperter). I nogle tests gav IRL visuelt bedre resultater end tilsvarende RL-tests. Men arbejdet med at udvælge og designe egenskaber lignede processen med at designe en belønningsfunktion, og indsamling af ekspertdata øger kompleksiteten. Lineær IRL er derfor ikke altid en enklere tilgang. Metoden GAIL, som ikke kræver konstruktion af egenskaber, blev også testet og viste potentiale.

Industry increasingly needs adaptable models. Reinforcement learning (RL) is one such approach, where an agent learns by trial and error guided by rewards. Yet few commercial RL solutions exist, partly due to design complexity. This thesis presents a method to identify where RL becomes complex in industrial applications, and applies it to 15 applications inspired by four industrial companies. The main challenge was designing the reward function (the signal that tells the agent what to value). To address this, the study tested two Linear Inverse Reinforcement Learning (IRL) algorithms, which represent the reward as a linear combination of features (measurable characteristics), using expert data (examples of desired behavior). In some cases, these IRL tests produced visually better results than RL. However, choosing and engineering features resembled the effort of crafting a reward, and collecting expert data adds work. Therefore, Linear IRL is not always a simpler alternative. The GAIL method, which does not require feature construction, was also tested and showed potential.

[This abstract was generated with the help of AI]