AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


CleanNav: Dirt Detection and Depth Prediction with Multi-Task Learning and Multi-View Learning

Authors

; ;

Term

4. term

Education

Publication year

2021

Pages

12

Abstract

This thesis investigates whether an autonomous cleaning robot can rely on a single monocular RGB camera to both predict depth and detect dirt, enabling navigation without collisions. We propose CleanNav, comprising FCRNO2, a modified Fully Convolutional Residual Network with Multi-Task Learning and hard parameter sharing to jointly perform depth prediction and dirt detection (with floor-focused crops), and D3QNI2, a dueling deep double-Q architecture that applies Multi-View Learning in a CNN front-end and uses a reward shaped by speed/heading, collisions, and proximity to the nearest dirt patch. The system is trained and tested in Gazebo/ROS and compared against random navigation; we also study the effect of varying the number of task-specific blocks in FCRNO2. Findings indicate that FCRNO2 shows promise for dirt detection, with two task-specific blocks yielding low and evenly distributed noise, and dirt-only training leading the robot toward dirty areas. However, the combined CleanNav setup with D3QNI2 does not outperform random navigation, suggesting the D3QNI2 architecture is not well suited for this task. We outline potential improvements, including varied dirt types and sizes, distinct loss functions for depth and dirt tasks, and an additional downward-facing camera input to reduce training noise.

Denne afhandling undersøger, om en autonom rengøringsrobot kan bruge kun et almindeligt RGB-kamera til både at forudse dybde og opdage snavs, og derigennem lære at navigere uden at ramme forhindringer. Vi foreslår CleanNav, der består af to dele: FCRNO2, en modificeret Fully Convolutional Residual Network med Multi-Task Learning og hård parametersharing til samtidig dybdeprediktion og snavsdetektion (med fokus på gulvet via beskæring af billedets øverste del), samt D3QNI2, en dueling deep double-Q netværksarkitektur, der anvender Multi-View Learning i et CNN-front-end og belønning baseret på fart/retning, kollisioner og afstand til nærmeste snavsområde. Systemet er trænet og testet i Gazebo/ROS og sammenlignet med tilfældig navigation, og vi evaluerer også antallet af opgavespecifikke blokke i FCRNO2. Resultaterne viser, at FCRNO2 har potentiale til snavsdetektion, hvor to opgavespecifikke blokke gav lav og jævnt fordelt støj, og at træning kun på snavsbilleder får robotten til at køre mod snavs. Den samlede CleanNav-opsætning med D3QNI2 giver imidlertid ikke bedre resultater end tilfældig navigation, og indikerer at D3QNI2-arkitekturen ikke er velegnet til denne opgave. Vi skitserer forbedringsmuligheder, herunder forskellige snavstyper og -størrelser, separate tabsfunktioner for dybde og snavs, samt et ekstra nedadrettet kamerainput for renere træningssignal.

[This apstract has been generated with the help of AI directly from the project full text]