Category-level 6D Pose Estimation
Author
Maj, Anna Maria
Term
4. term
Publication year
2022
Submitted on
2022-06-01
Abstract
6D objektposeestimering handler om at beregne både et objekts 3D‑position og 3D‑orientering ud fra billeder. Det bruges bl.a. i virtuel virkelighed og robotik. På kategoriniveau forsøger metoderne at genkende og placere nye, usete eksemplarer inden for en kategori (f.eks. forskellige krus i kategorien 'mug'). Dette er stadig et åbent forskningsområde med plads til forbedring og relevant for Aivero AS’ anvendelser i virkelige miljøer. I denne afhandling undersøges feltet gennem en gennemgang af nyeste løsninger, offentlige datasæt samt metoder til detektion og evaluering. FS‑Net blev identificeret som et af de mest præcise open source‑netværk og blev derfor valgt til eksperimenterne. Først blev resultater forsøgt genskabt ved at træne netværket på NOCS‑Real‑datasættet. Derefter blev der arbejdet på at forbedre modellerne med særligt fokus på kategorien 'mug'. Selvom det ikke lykkedes at forbedre resultaterne, blev standardmålene n‑grad m‑centimeter (der kontrollerer, om orientering/placering ligger inden for givne tærskler) og IoU (Intersection over Union, en overlapscore) genskabt for kategorierne 'laptop' og 'bowl' og i begrænset omfang for 'mug'. Arbejdet peger desuden på, at estimering af 6D‑poser for ikke‑symmetriske objekter fortsat er udfordrende og er et relevant emne for fremtidig forskning.
6D object pose estimation aims to recover both an object’s 3D position and 3D orientation from images. It is used in areas like virtual reality and robotics. At the category level, methods try to work across different, unseen instances within the same category (for example, many different cups within the 'mug' category). This remains an open research problem with room for improvement and is relevant for Aivero AS in real‑world vision and robotics applications. This thesis reviews recent methods, public datasets, and detection and evaluation approaches. FS‑Net was identified as one of the most accurate open‑source networks and was chosen for experiments. First, the work attempted to reproduce published results by training on the NOCS‑Real dataset. Next, it sought to improve the models, with a special focus on the 'mug' category. Although no improvements were achieved, the standard n‑degree m‑centimeter metric (which checks whether rotation/translation are within given thresholds) and IoU (Intersection over Union, an overlap score) were reproduced for the 'laptop' and 'bowl' categories, and to a limited extent for 'mug'. The study also finds that estimating 6D poses for non‑symmetrical objects remains challenging and is a promising direction for future work.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Documents
