Handy ROV : A System Design Approach for Small Object Retrieval Using an ROV
Author
Indrayanto, Rifqi Juli
Term
4. term
Publication year
2026
Submitted on
2026-06-04
Abstract
Underwater environments are demanding and can be dangerous for humans, which makes it difficult to move around and perform tasks without technical assistance. For that reason, Remotely Operated Vehicles (ROVs) are used for tasks such as retrieving objects from the seafloor, including archaeological relics or marine litter. This project investigates how an ROV can automatically detect and retrieve small objects. We develop and integrate a strategy that combines object detection (finding objects in images) with a control system that guides the ROV towards the target. For object detection, we use YOLO (You Only Look Once), a type of artificial intelligence model that can detect objects in images and video and track them over time. We use YOLO-based models with their built-in tracking module and train them on five different datasets. The results show that the new YOLO models perform better than the baseline models on each individual dataset, but still perform poorly on a realistic real-world test set. On this test set, they achieve on average less than 0.1 in both Mean Average Precision (mAP), which measures how accurately objects are detected, and HOTA, a higher-order metric for evaluating multi-object tracking. One model, trained on a dataset generated using a diffusion-based method (which synthetically creates images), performs best, with an mAP of 0.3 and a HOTA score of 0.2 on the test set. This suggests that using artificially generated training data can improve object detection performance in underwater environments. For the retrieval phase, we use the object detection model together with a distance measurement as input to a PID (proportional-integral-derivative) control system, which automatically adjusts the ROV’s movement. In practice, however, measuring the distance to small objects with a sonar remains a major challenge, because the sonar mainly detects walls and larger structures rather than the small target objects. In our experiments, we therefore assume that the distance between the ROV and the object corresponds to the width of the pool, around 3.5 m. Under this assumption, the best proportional gain (Kp) for the PID controller is 3.0, based on tests along a single axis at a time. The system converges to its target in 3.23 seconds with a 12.3% overshoot along the x-axis, and in 2.31 seconds with a 21.2% overshoot along the y-axis. This shows that the control system can steer the ROV towards the target relatively quickly, but there is still room for improvement in both precision and sensor measurements.
Undervandsmiljøer er krævende og kan være farlige for mennesker, hvilket gør det svært at bevæge sig rundt og udføre opgaver uden hjælp. Derfor bruges fjernstyrede undervandsfartøjer (Remotely Operated Vehicles, ROV’er) til opgaver som for eksempel at samle genstande op fra havbunden, såsom fund (rester) eller affald. Dette projekt undersøger, hvordan man kan få en ROV til automatisk at finde og hente små genstande. Vi udvikler og integrerer en strategi, der kombinerer objektgenkendelse (at finde genstande i billeder) med et styresystem, der kan føre ROV’en hen til genstanden. Til objektgenkendelse anvender vi YOLO (You Only Look Once), som er en type kunstig intelligens-model til at finde objekter i billeder og video samt spore dem over tid. Vi bruger YOLO-modeller med indbygget sporingsmodul og træner dem på fem forskellige datasæt. Resultaterne viser, at de nye YOLO-modeller klarer sig bedre end de oprindelige (baseline) modeller på hvert datasæt, men at de stadig klarer sig dårligt på et realistisk testdatasæt fra virkeligheden. Her opnår de i gennemsnit under 0,1 i både Mean Average Precision (mAP), som måler nøjagtigheden af objektgenkendelsen, og HOTA, en mere avanceret målemetode til sporing af flere objekter. En model, der er trænet på et datasæt genereret med såkaldt diffusion (en metode til at syntetisk skabe billeder), klarer sig bedst, med mAP på 0,3 og HOTA på 0,2 på testdatasættet. Det tyder på, at kunstigt genererede træningsdata kan forbedre genkendelsen i undervandsmiljøer. Til selve hentningen af objekter bruger vi objektgenkendelsesmodellen og en afstandsmåling som input til et PID-styresystem (proportional-integral-derivative), der automatisk regulerer ROV’ens bevægelse. I praksis er det dog stadig en udfordring at måle afstanden til små objekter med sonar, da sonaren primært registrerer vægge og større strukturer frem for de små genstande, vi ønsker at afhente. I forsøgene antager vi derfor, at afstanden mellem ROV og objekt svarer til bassinets bredde, cirka 3,5 meter. Under disse forudsætninger finder vi, at den bedste proportionalforstærkning (Kp) i PID-regulatoren er 3,0, baseret på tests langs én akse ad gangen. Systemet når sin målværdi (konvergerer) på 3,23 sekunder med et oversving på 12,3 % langs x-aksen og på 2,31 sekunder med et oversving på 21,2 % langs y-aksen. Dette viser, at styresystemet kan få ROV’en til at nærme sig målet relativt hurtigt, men at der stadig er plads til forbedring i både præcision og sensormålinger.
[This abstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
Underwater ; ROV ; Diffusion ; PID ; Small Object
