Learning Optimal Scheduling for Time Uncertain Settings

Authors

Taankvist, Jakob Haahr ; Jensen, Peter Gjøl

Term

4. term

Education

Computer Science, Master

Publication year

2014

Submitted on

2014-06-10

Abstract

Many decision problems in uncertain, time-dependent systems can be modeled as Markov decision processes with time and price (cost). We present a method that automatically learns strategies that minimize the expected cost. Our approach is based on reinforcement learning and can learn near-optimal strategies for Duration Probabilistic Automata (DPA), a formal model of timed probabilistic systems. It is also largely applicable to the broader class of Priced Time Markov Decision Processes. We develop several variants for key steps of the learning algorithm and empirically study how they affect the synthesized strategies. In our experiments, the proposed methods outperform previously known automated tools for synthesizing schedulers for DPA: running time improves by about an order of magnitude while producing essentially the same schedulers, with decision boundaries differing by at most 0.5. All methods are implemented in the UPPAAL tool. This enables the synthesis of strategies for cost-bounded reachability objectives in games while achieving a (near-) optimal expected cost.

Mange beslutningsproblemer i usikre, tidsafhængige systemer kan beskrives som Markov-beslutningsprocesser med tid og pris (omkostning). I dette arbejde præsenterer vi en metode, der automatisk lærer strategier, så den forventede omkostning bliver så lav som mulig. Metoden bygger på forstærkningslæring og kan lære næsten optimale strategier for Duration Probabilistic Automata (DPA), en formel model for tidslige, probabilistiske systemer. Den kan i vidt omfang også anvendes på den bredere klasse af prissatte tids-Markov-beslutningsprocesser. Vi udvikler flere varianter af centrale trin i læringsalgoritmen og undersøger empirisk, hvordan de påvirker de strategier, der bliver syntetiseret. I vores undersøgelser overgår metoderne tidligere kendte automatiske værktøjer til at syntetisere planlæggere (schedulers) for DPA: køretiden forbedres med cirka en størrelsesorden, samtidig med at der opnås de samme planlæggere, med beslutningsgrænser der afviger med højst 0,5. Alle metoderne er implementeret i værktøjet UPPAAL. Det gør det muligt at syntetisere strategier til omkostningsbegrænsede nåbarhedsmål i spil og samtidig opnå (næsten) optimal forventet omkostning.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Learning Optimal Scheduling for Time Uncertain Settings