AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


3D Fractal Pre-training for Action Recognition

Author

Term

4. semester

Publication year

2025

Submitted on

Pages

76

Abstract

Large and diverse datasets are crucial for deep learning in action recognition, but collecting real-world videos is costly and raises privacy challenges. This thesis tests whether synthetic videos built from 3D fractal geometry can serve as a scalable, privacy-preserving source for pre-training action recognition models. Using Iterated Function Systems (IFS)—simple rules repeated to create complex, self-similar shapes—it develops a pipeline that generates diverse 3D point clouds, renders them into synthetic clips, and assembles large datasets for neural networks. Experiments with a common model backbone (ResNet-50) combined with a Temporal Shift Module (TSM) show that pre-training on fractal-based datasets clearly outperforms training from scratch. Systematic studies also identify what design choices matter: dataset size, the strength of geometric transformations, color augmentation, and how tightly the fractal geometry is controlled all affect downstream performance. Data-driven controls—such as limiting the condition number (a measure of how distorted a transformation is) and using support vector machines (SVMs) to weight singular values—further increase visual diversity and data quality. Although pre-training on 3D fractal videos does not yet surpass the strongest 2D fractal baselines, it narrows the gap and demonstrates the practical promise of formula-driven synthetic data for scalable action recognition when real video is scarce.

Store og mangfoldige datasæt er afgørende for dybdelæring i handlingsgenkendelse, men det er dyrt og svært at indsamle virkelige videooptagelser og samtidig værne om privatliv. Dette speciale undersøger, om syntetiske videoer skabt ud fra 3D-fraktalgeometri kan bruges som en skalerbar, privatlivsbevarende kilde til fortræning af handlingsgenkendelsesmodeller. Med itererede funktionssystemer (IFS) – simple regler, der gentages for at danne komplekse, selvlignende former – udvikles en pipeline, som genererer mangfoldige 3D-punktskyer, gør dem til syntetiske videoklip og opbygger store datasæt til neurale netværk. Forsøg med en udbredt modelarkitektur (ResNet-50) kombineret med et Temporal Shift Module (TSM) viser, at fortræning på fraktalbaserede datasæt klart overgår træning fra bunden. Systematiske studier viser også, at datasættets størrelse, styrken af geometriske transformationer, farve-augmentation og kontrol over fraktalgeometrien påvirker den efterfølgende ydeevne. Datadrevne metoder til at styre fraktalstrukturen – som at begrænse konditionstallet (et mål for hvor skæv en transformation er) og at bruge support-vektor-maskiner (SVM) til at vægte singulærværdier – øger den visuelle mangfoldighed og kvaliteten af dataene. Selvom fortræning på 3D-fraktaler endnu ikke overgår de stærkeste 2D-fraktalbaselines, mindsker den afstanden og demonstrerer det praktiske potentiale i formel-drevet syntetisk data til skalerbar handlingsgenkendelse, når der er begrænset adgang til virkelige videoer.

[This apstract has been rewritten with the help of AI based on the project's original abstract]