Where can I go? Deep multi-modal scene understanding for outdoor navigation
Author
Humblot-Renaux, Galadrielle Eve Giséle Elisabeth
Term
4. semester
Education
Publication year
2021
Submitted on
2021-06-03
Pages
150
Abstract
Dette projekt undersøger, hvordan dyb læring og maskinsyn kan hjælpe autonome køretøjer og robotter med at forstå udendørs omgivelser. I stedet for at genkende bestemte objekter (fx træer eller biler) bruger vi en affordance-baseret tilgang, som fokuserer på, hvad der kan gøres i scenen – konkret hvor og hvordan der kan køres. Vi analyserer egocentriske billeder (set fra køretøjets eget perspektiv) ved at lade et SegNet-baseret billedsegmenteringsnetværk klassificere hver pixel i tre niveauer af kørbarhed. For at begrænse alvorlige fejl under træningen og forbedre vigtige områder i billedet undersøger vi bløde etiketter (sandsynligheder frem for faste klasser), pixelvis vægtning af tab (så kritiske pixels tæller mere), og dyb adaptiv fusion, der kombinerer infrarøde og dybdedata i forudsigelserne. Vi evaluerer de foreslåede træningsstrategier og den multimodale arkitektur på ni offentlige datasæt og ser lovende resultater på tværs af ustrukturerede skovmiljøer, urbane kørescener og håndholdte optagelser fra flere synsvinkler.
This project studies how deep learning and computer vision can help autonomous vehicles and robots understand outdoor scenes. Instead of recognizing specific objects (like trees or cars), we use an affordance-based approach that focuses on what actions are possible—specifically, where and how a vehicle can drive. We process egocentric images (from the vehicle’s own viewpoint) with a SegNet-based image segmentation network that assigns each pixel to one of three drivability levels. To reduce severe mistakes during training and improve key image regions, we explore soft labeling (using probabilities instead of hard labels), pixel-wise loss weighting (so critical pixels count more), and deep adaptive fusion to incorporate infrared and depth data into the predictions. We evaluate the proposed training schemes and multimodal architecture on nine public datasets and observe promising results across unstructured forest environments, urban driving scenes, and multi-view handheld captures.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
