Low Level Robot Control Using A Multi Modal Foundation Model: P10 project
Translated title
Low Level Robot Control Using A Multi Modal Foundation Model
Authors
Bjørholm, Victor Hagbard ; Dadgostar, Mahed
Term
4. semester
Education
Publication year
2024
Submitted on
2024-05-31
Pages
69
Abstract
Many robotic systems are highly specialized and struggle to switch between tasks. In this project, we implemented our own robotic control stack to experiment with Octo, a multimodal foundation model, for low-level control of a robot manipulator. Multimodal means the model can combine different inputs, such as camera images and task descriptions, while low-level control refers to sending direct commands to the robot’s joints and motions. We fine-tuned Octo on data we recorded with tools developed for this project and stored the data in a standardized format for future training. To train and run Octo, we built a custom robot environment, integrated it with a Polymetis server wrapped in a ZeroRPC server, developed a VR control system for intuitive robot control, and created our own data-recording tools. We adapted existing Octo scripts to our setup and successfully fine-tuned and ran Octo in our environment. The resulting model uses two camera inputs and a task description to pick up a variety of objects.
Mange robotsystemer er højt specialiserede og har svært ved at skifte mellem opgaver. I dette projekt implementerede vi vores egen robotstyringsstak for at eksperimentere med Octo, en multimodal grundmodel, til lavniveau-styring af en robotmanipulator. Multimodal betyder, at modellen kan kombinere flere typer input, for eksempel kamerabilleder og opgavebeskrivelser, mens lavniveau-styring handler om direkte kommandoer til robotled og bevægelser. Vi finjusterede Octo på data, vi selv indsamlede med værktøjer udviklet til projektet, og lagrede disse data i et standardiseret format til fremtidig træning. For at træne og køre Octo byggede vi et skræddersyet robotmiljø, integrerede det med en Polymetis-server indkapslet i en ZeroRPC-server, udviklede et VR-styringssystem til intuitiv robotkontrol og byggede egne værktøjer til dataregistrering. Vi tilpassede eksisterende Octo-scripts til vores brugssag og kørte Octo med succes i vores miljø efter finjustering. Den resulterende model bruger to kamerainput og en opgavebeskrivelse til at samle forskellige objekter op.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
