Reinforcement Learning for Robotic Rock Grasp Learning in Off-Earth Space Environments
Authors
Andersen, Anton Bock ; Jørgensen, Marius Willemoes
Term
4. semester
Education
Publication year
2022
Submitted on
2022-06-01
Abstract
The time delay in communications between Earth and Mars makes direct teleoperation hard for tasks like picking up rocks, so rovers need more autonomy. This thesis tests Deep Reinforcement Learning (DRL, where an agent learns by trial and error in simulation) to teach robots to grasp Martian rocks. We use NVIDIA Isaac Gym to simulate many Mars-like scenes with randomly generated terrain and rocks. A Franka Emika Panda robotic arm is trained with Proximal Policy Optimization (PPO), a DRL algorithm, to pick up these randomized rocks. To cope with large changes in terrain height, we apply joint control of the arm, enabling 6-DOF grasping (six degrees of freedom: full control of position and orientation in 3D). The learned controller achieves a 91.51% success rate on randomized rocks sized 40–400 cm³. Heavy randomization of shapes and environments (domain randomization) produces a robust agent and forms a solid basis for future transfer from simulation to real robots (sim-to-real). The work demonstrates an approach to 6-DOF object grasping that combines joint control with domain randomization.
Tidsforsinkelsen i kommunikationen mellem Jorden og Mars gør manuel fjernstyring af rovere vanskelig ved opgaver som at samle sten op. Dette arbejde undersøger Deep Reinforcement Learning (DRL, hvor en agent lærer ved forsøg og fejl i simulation) til at lære robotter at gribe marssten. Vi bruger NVIDIA Isaac Gym til at simulere mange Mars-lignende scener med tilfældigt genereret terræn og sten. En Franka Emika Panda robotarm trænes med Proximal Policy Optimization (PPO), en DRL-algoritme, til at samle de tilfældigt genererede sten op. For at håndtere store variationer i terrænhøjde bruges leddestyring af armen, hvilket muliggør gribning i 6 frihedsgrader (6-DOF: fuld kontrol af position og orientering i 3D). Den lærte styring opnår en succesrate på 91,51% på tilfældige sten i størrelsen 40–400 cm³. Den omfattende tilfældiggørelse af former og miljøer (domain randomization) gør agenten robust og lægger et solidt grundlag for fremtidig overførsel fra simulation til virkelige robotter (sim-to-real). Arbejdet præsenterer en tilgang til 6-DOF-objektgribning, der kombinerer leddestyring og domain randomization.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
