Exploring Unknown Environments with UPPAAL STRATEGO: Reinforcement Learning for Drone Navigation and Pump Localization
Authors
Lauritsen, Thomas Grubbe Sandborg ; Axelsen, Magnus Kallestrup
Term
4. term
Education
Publication year
2024
Pages
23
Abstract
This thesis studies how an autonomous drone can safely explore and map an unknown indoor room and locate points of interest (POIs). We frame decision-making as a Markov Decision Process (MDP)—a model of states, actions, and rewards—and use the UPPAAL STRATEGO tool to automatically synthesize a near‑optimal exploration policy with Q‑learning. The policy (a rule for choosing actions) produces a sequence of actions for the drone to execute. To handle uncertainty in the environment and the drone’s motion, we add STOMPC, a stochastic model predictive controller that estimates how actions will play out and reports the drone’s updated true state back to UPPAAL STRATEGO after each action sequence. We also employ two safety “shields”—a learning shield and a runtime shield—that enforce safety constraints by blocking unsafe choices. The drone uses a LiDAR and an inertial measurement unit (IMU) for odometry. We control the system with the Robot Operating System (ROS) and use the Slam Toolbox SLAM package to keep the map that UPPAAL STRATEGO uses up to date. We validate the approach in the Gazebo Simulator with an X500 drone and different room layouts, and we compare it to a Breadth‑First Search (BFS) strategy. Our method fully explores the room and inspects all POIs with an average of 33 fewer executed actions than BFS, while taking only slightly more time. We also outline options to reduce completion time. Finally, we demonstrate generality by mapping rooms of varying sizes and shapes and show the method working on a real TurtleBot3 robot.
Denne afhandling undersøger, hvordan en autonom drone kan udforske og kortlægge et ukendt indendørs rum og finde interessepunkter (POI'er) på en sikker måde. Vi modellerer beslutningsproblemet som en Markov-beslutningsproces (MDP)—en model med tilstande, handlinger og belønninger—og bruger værktøjet UPPAAL STRATEGO til automatisk at syntetisere en næsten optimal udforskningspolitik med Q-learning. Politikken (en regel for, hvilke handlinger der skal vælges) genererer en sekvens af handlinger, som dronen udfører. For at håndtere usikkerheder i omgivelserne og i dronens bevægelser tilføjer vi STOMPC, en stokastisk modelprædiktiv regulator, som vurderer, hvordan handlingerne vil forløbe, og sender dronens opdaterede sande tilstand tilbage til UPPAAL STRATEGO efter hver handlingssekvens. Vi anvender desuden to sikkerhedsskjolde—et læringsskjold og et runtime-skjold—der håndhæver sikkerhedskrav ved at blokere usikre valg. Dronen er udstyret med en LiDAR og en IMU, der leverer odometri. Systemet styres med Robot Operating System (ROS), og vi bruger SLAM-pakken Slam Toolbox til løbende at opdatere det kort, som UPPAAL STRATEGO anvender. Vi validerer tilgangen i Gazebo Simulator ved at simulere en X500-drone og forskellige rum, og vi sammenligner med en bredde-først-søgningsstrategi (BFS). Vores metode udforsker rummet fuldt ud og undersøger alle POI'er med i gennemsnit 33 færre udførte handlinger end BFS, om end på en anelse længere tid. Vi skitserer også muligheder for at nedbringe gennemførelsestiden. Endelig viser vi metodens generalitet ved at kortlægge rum af forskellige størrelser og former og demonstrerer den på en fysisk TurtleBot3-robot.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
reinforcement learning ; uppaal ; uppaal stratego ; machine learning ; drone ; ros ; gazebo ; stompc ; slam
