Low Level Robot Control Using A Multi Modal Foundation Model: P10 project
Translated title
Low Level Robot Control Using A Multi Modal Foundation Model
Authors
Bjørholm, Victor Hagbard ; Dadgostar, Mahed
Term
4. semester
Education
Publication year
2024
Submitted on
2024-05-31
Pages
69
Abstract
Mange robotsystemer er højt specialiserede og har svært ved at skifte mellem opgaver. I dette projekt implementerede vi vores egen robotstyringsstak for at eksperimentere med Octo, en multimodal grundmodel, til lavniveau-styring af en robotmanipulator. Multimodal betyder, at modellen kan kombinere flere typer input, for eksempel kamerabilleder og opgavebeskrivelser, mens lavniveau-styring handler om direkte kommandoer til robotled og bevægelser. Vi finjusterede Octo på data, vi selv indsamlede med værktøjer udviklet til projektet, og lagrede disse data i et standardiseret format til fremtidig træning. For at træne og køre Octo byggede vi et skræddersyet robotmiljø, integrerede det med en Polymetis-server indkapslet i en ZeroRPC-server, udviklede et VR-styringssystem til intuitiv robotkontrol og byggede egne værktøjer til dataregistrering. Vi tilpassede eksisterende Octo-scripts til vores brugssag og kørte Octo med succes i vores miljø efter finjustering. Den resulterende model bruger to kamerainput og en opgavebeskrivelse til at samle forskellige objekter op.
Many robotic systems are highly specialized and struggle to switch between tasks. In this project, we implemented our own robotic control stack to experiment with Octo, a multimodal foundation model, for low-level control of a robot manipulator. Multimodal means the model can combine different inputs, such as camera images and task descriptions, while low-level control refers to sending direct commands to the robot’s joints and motions. We fine-tuned Octo on data we recorded with tools developed for this project and stored the data in a standardized format for future training. To train and run Octo, we built a custom robot environment, integrated it with a Polymetis server wrapped in a ZeroRPC server, developed a VR control system for intuitive robot control, and created our own data-recording tools. We adapted existing Octo scripts to our setup and successfully fine-tuned and ran Octo in our environment. The resulting model uses two camera inputs and a task description to pick up a variety of objects.
[This abstract was generated with the help of AI]
Keywords
Documents
