AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


3D Fractal Pre-training for Action Recognition

Author

Term

4. semester

Publication year

2025

Submitted on

Pages

76

Abstract

Store og mangfoldige datasæt er afgørende for dybdelæring i handlingsgenkendelse, men det er dyrt og svært at indsamle virkelige videooptagelser og samtidig værne om privatliv. Dette speciale undersøger, om syntetiske videoer skabt ud fra 3D-fraktalgeometri kan bruges som en skalerbar, privatlivsbevarende kilde til fortræning af handlingsgenkendelsesmodeller. Med itererede funktionssystemer (IFS) – simple regler, der gentages for at danne komplekse, selvlignende former – udvikles en pipeline, som genererer mangfoldige 3D-punktskyer, gør dem til syntetiske videoklip og opbygger store datasæt til neurale netværk. Forsøg med en udbredt modelarkitektur (ResNet-50) kombineret med et Temporal Shift Module (TSM) viser, at fortræning på fraktalbaserede datasæt klart overgår træning fra bunden. Systematiske studier viser også, at datasættets størrelse, styrken af geometriske transformationer, farve-augmentation og kontrol over fraktalgeometrien påvirker den efterfølgende ydeevne. Datadrevne metoder til at styre fraktalstrukturen – som at begrænse konditionstallet (et mål for hvor skæv en transformation er) og at bruge support-vektor-maskiner (SVM) til at vægte singulærværdier – øger den visuelle mangfoldighed og kvaliteten af dataene. Selvom fortræning på 3D-fraktaler endnu ikke overgår de stærkeste 2D-fraktalbaselines, mindsker den afstanden og demonstrerer det praktiske potentiale i formel-drevet syntetisk data til skalerbar handlingsgenkendelse, når der er begrænset adgang til virkelige videoer.

Large and diverse datasets are crucial for deep learning in action recognition, but collecting real-world videos is costly and raises privacy challenges. This thesis tests whether synthetic videos built from 3D fractal geometry can serve as a scalable, privacy-preserving source for pre-training action recognition models. Using Iterated Function Systems (IFS)—simple rules repeated to create complex, self-similar shapes—it develops a pipeline that generates diverse 3D point clouds, renders them into synthetic clips, and assembles large datasets for neural networks. Experiments with a common model backbone (ResNet-50) combined with a Temporal Shift Module (TSM) show that pre-training on fractal-based datasets clearly outperforms training from scratch. Systematic studies also identify what design choices matter: dataset size, the strength of geometric transformations, color augmentation, and how tightly the fractal geometry is controlled all affect downstream performance. Data-driven controls—such as limiting the condition number (a measure of how distorted a transformation is) and using support vector machines (SVMs) to weight singular values—further increase visual diversity and data quality. Although pre-training on 3D fractal videos does not yet surpass the strongest 2D fractal baselines, it narrows the gap and demonstrates the practical promise of formula-driven synthetic data for scalable action recognition when real video is scarce.

[This summary has been rewritten with the help of AI based on the project's original abstract]