AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Improving camera motion classification for undersea coral videos

Authors

; ;

Term

4. term

Publication year

2024

Submitted on

Pages

14

Abstract

The world’s coral reefs are declining, with substantial losses reported since 2009. Scientists track reef health using 3D reconstructions of coral structures, but creating these models usually requires professionally captured video. At the same time, many amateur reef videos exist online, yet finding clips with the right camera motion and views from multiple angles—conditions needed for 3D reconstruction—is time-consuming. We present a method to automatically flag segments of public videos that are likely useful for 3D reconstruction. The approach extracts motion vectors (how pixels move between frames) from video and converts them into HSI images (Hue, Saturation, Intensity), which are analyzed by a Swin Transformer (a modern deep-learning model for images). To train and evaluate the method, we expanded a benchmark dataset of amateur coral footage. We compared three approaches: (1) a Swin Transformer using the HSI motion images; (2) a Convolutional Neural Network (CNN) trained on the same type of images; and (3) a simple heuristic model (rule-based) applied directly to motion vectors. The CNN and heuristic performed poorly (F1 scores—a combined measure of precision and recall—of 0.11 and 0.16). The HSI Swin Transformer did better (F1 0.19). However, simply applying a Swin Transformer without data augmentation (artificially expanding training data) performed best (F1 0.26). The HSI Swin model scored much higher on the validation set, suggesting overfitting or that converting to HSI causes information loss. Overall, this work points to a way to bridge public video and scientific monitoring of reefs, while highlighting the need for improved representations and regularization.

Verdens koralrev er i tilbagegang med markante tab siden 2009. Forskere overvåger revs sundhed ved hjælp af 3D-rekonstruktioner af koralstrukturer, men sådanne modeller kræver typisk professionelt optaget video. Samtidig findes der mange amatørvideoer online, men at finde klip med den rigtige kamerabevægelse og visninger fra flere vinkler—betingelser, der er nødvendige for 3D-rekonstruktion—er tidskrævende. Vi præsenterer en metode, der automatisk udpeger sekvenser i offentlige videoer, som sandsynligvis er nyttige til 3D-rekonstruktion. Metoden udtrækker bevægelsesvektorer (hvordan pixels bevæger sig mellem billeder) fra video og omsætter dem til HSI-farvebilleder (farvetone, mætning, intensitet), som analyseres med en Swin-transformer (en moderne dybdelæringsmodel til billeder). Til træning og evaluering udvidede vi et benchmark-datasæt med amatørvideoer af koraller. Vi sammenlignede tre tilgange: (1) en Swin-transformer baseret på HSI-bevægelsesbilleder; (2) et konvolutionsneuronalt netværk, CNN, trænet på samme type billeder; og (3) en simpel heuristisk model (regelbaseret) direkte på bevægelsesvektorer. CNN’et og den heuristiske model klarede sig dårligt (F1-score, et samlet mål for præcision og genkaldelse, på hhv. 0,11 og 0,16). HSI-Swin-transformeren gjorde det bedre (F1 0,19). Men at anvende en Swin-transformer uden dataaugmentation (kunstig udvidelse af træningsdata) gav den bedste ydeevne (F1 0,26). HSI-Swin-modellen klarede sig væsentligt bedre på valideringssættet, hvilket peger på overtilpasning eller at konverteringen til HSI medfører informationstab. Samlet set kan metoden bidrage til at bygge bro mellem offentlig videodata og forskningen i rev-overvågning, men resultaterne viser også behov for bedre repræsentationer og regularisering.

[This apstract has been rewritten with the help of AI based on the project's original abstract]