Traffic Light Control Using Deep Reinforcement Learning At An Isolated Intersection With Pedestrians
Authors
Sørensen, Daniel Rytter ; Danielsen, Nicolai Tandal
Term
4. term
Education
Publication year
2020
Submitted on
2020-06-03
Pages
34
Abstract
Urban congestion is costly—estimated at roughly 110 billion euros per year in the EU—and improving traffic signal control is a key way to cut delays without new infrastructure. While reinforcement learning has shown promise for traffic lights, most studies ignore pedestrians. This thesis examines how the behavior of a dueling double deep Q-network (DDDQN) with prioritized experience replay changes when pedestrians are included at an isolated intersection during rush hour. We train and evaluate a DDDQN in a simulated intersection with pedestrians and compare it against two simple strategies: fixed-time control and a heuristic inspired by a police officer directing traffic. We also compare it to an identical DDDQN trained without pedestrians but tested in the same environment with pedestrians to assess whether the optimal policy shifts when pedestrian flows are considered. The work addresses the inherent trade-off between vehicle and pedestrian priorities via reward design and analyzes behavior and performance in a shared test simulation. Quantitative findings are not provided in this excerpt, but the thesis aims to determine whether modern deep reinforcement learning still outperforms simple baselines when both motorized traffic and pedestrians are modeled.
Bytrængsel er dyrt og estimeres til omkring 110 milliarder euro årligt i EU, og bedre styring af trafiklys er en central vej til at reducere ventetider uden at bygge ny infrastruktur. Mens forstærkningslæring allerede har vist lovende resultater for signalstyring, overser meget af litteraturen fodgængere. Dette speciale undersøger, hvordan adfærden for en dueling double deep Q-network (DDDQN) med prioriteret erfaringstilbageafspilning ændrer sig, når fodgængere indgår i styringen af et isoleret vejkryds i myldretiden. Vi træner og evaluerer en DDDQN i en simuleret krydsmodel med fodgængere og sammenligner den med to simple strategier: fasttidsstyring og en heuristik inspireret af en politibetjent, der dirigerer trafikken. Derudover sammenlignes den med en identisk DDDQN, som er trænet i et miljø uden fodgængere, men testet i et miljø med fodgængere, for at belyse, om optimal politik ændrer sig ved at inkludere fodgængerstrømme. Arbejdet adresserer den indbyggede konflikt mellem køretøjs- og fodgængerprioritering gennem valg af belønningsfunktion og analyserer adfærd og ydeevne i en fælles testsimulation. Kvantitative resultater er ikke indeholdt i dette uddrag, men specialet har til formål at klarlægge, om moderne dyb forstærkningslæring fortsat kan overgå enkle strategier, når både motoriseret trafik og fodgængere medregnes.
[This apstract has been generated with the help of AI directly from the project full text]
