AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Active VisLED: Active Vision-Language Embedded Diversity Querying for 3D Object Detection

Author

Term

4. semester

Publication year

2024

Submitted on

Pages

75

Abstract

This thesis develops and evaluates VisLED-Querying, a method for choosing which data to label so a 3D object detection model for autonomous driving can learn more efficiently. 3D object detection means training a system to find and locate objects in three dimensions. VisLED-Querying uses active learning: from a large pool of unlabeled examples, it selects diverse and informative samples to label. It leverages vision-language embeddings—numerical representations that link images and words—to measure diversity, helping the model learn about rare or novel objects. The approach is tested in two settings, Open-World Exploring (OWE) and Closed-World Mining (CWM), using the nuScenes dataset. Across these tests, VisLED-Querying reaches performance close to training on the full dataset while using only up to 50% of the data, reducing labeling needs. These results suggest that diversity-based active learning can make 3D object detection more accurate and cost-effective, with clear value for real-world autonomous driving and other applications that require robust object detection.

Dette speciale udvikler og evaluerer VisLED-Querying, en metode til at vælge, hvilke data der skal mærkes, så en model til 3D-objektdetektion i autonom kørsel kan lære mere effektivt. 3D-objektdetektion betyder, at et system skal finde og placere objekter i tre dimensioner. VisLED-Querying bruger aktiv læring: Fra en stor pulje af umærkede eksempler udvælges diverse og informative prøver til mærkning. Metoden udnytter vision-language embeddings – numeriske repræsentationer, der forbinder billeder og ord – til at måle diversitet og hjælpe modellen med at lære om sjældne eller nye objekter. Tilgangen afprøves i to scenarier, Open-World Exploring (OWE) og Closed-World Mining (CWM), på nuScenes-datasættet. På tværs af disse tests opnår VisLED-Querying ydeevne tæt på brug af hele datasættet, selv når der kun anvendes op til 50% af datapuljen, hvilket mindsker behovet for omfattende mærkning. Resultaterne peger på, at diversitetsbaseret aktiv læring kan gøre 3D-objektdetektion mere præcis og omkostningseffektiv og dermed være værdifuld for virkelige systemer til autonom kørsel og andre anvendelser, der kræver robust objektdetektion.

[This apstract has been rewritten with the help of AI based on the project's original abstract]