Combining Algorithm Unrolling with Self-Supervised Learning: Image Super-Resolution
Authors
Jørgensen, Mads Arnløv ; Larsen, Andreas Kühne ; Jónhardsson, Magnus
Term
4. semester
Education
Publication year
2023
Submitted on
2023-06-02
Pages
86
Abstract
At gøre billeder i lav opløsning skarpere (billedopskalering) klares i dag ofte bedst af dybe neurale netværk. Men disse metoder kræver store datamængder og betydelig beregningskraft, kan overtilpasse og er ofte svære at forstå og forklare. Dette speciale undersøger, om man kan afhjælpe nogle af disse udfordringer ved at kombinere algoritme-unrolling (at omsætte en iterativ optimeringsmetode til et neuralt netværk med mere fortolkelig struktur) med selv-superviseret læring (træning uden manuelle labels). To tilgange afprøves. Først fortrænes et netværk inspireret af ISTA-Net med data2vec, en selv-superviseret ramme, før det finjusteres til billedopskalering. Dernæst ændres en vision-transformer ved at erstatte den indledende lineære projektion i encoderens input med LISTA (en lærbar variant af ISTA) og fortrænes med en maskeret autoencoder-ramme, hvor modellen lærer at genskabe skjulte dele af billedet. Resultaterne viser, at fortræning af et ISTA-Net-inspireret netværk med data2vec kan give bedre generalisering, især når der kun findes få annoterede eksempler, men det er ikke muligt entydigt at tilskrive forbedringerne til fortræningen alene. I den anden tilgang ses forbedringer på tværs af alle eksperimenter. For at fastslå, hvor meget af gevinsten der kommer fra den udrullede algoritmiske struktur frem for blot en større model (flere parametre), er et målrettet ablationsstudie nødvendigt.
Making low-resolution images sharper (image upscaling) is often handled best by deep neural networks. However, these methods demand large datasets and heavy computation, can overfit, and are hard to interpret and explain. This thesis explores whether combining algorithm unrolling (turning an iterative optimization method into a network with a more interpretable structure) with self-supervised learning (training without manual labels) can ease some of these issues. Two approaches are tested. First, a network inspired by ISTA-Net is pre-trained with data2vec, a self-supervised framework, and then fine-tuned for image upscaling. Second, a vision transformer is modified by replacing its initial linear projection in the encoder with LISTA (a learnable variant of ISTA) and pre-trained using a masked autoencoder framework, where the model learns to reconstruct hidden parts of the image. The results show that pre-training an ISTA-Net-inspired network with data2vec may improve generalization, especially when only limited annotated data are available, but the improvement cannot be attributed to pre-training alone with certainty. In the second approach, performance increases across all experiments. To determine how much of this gain comes from the unrolled algorithmic structure versus simply using a larger model (more parameters), a targeted ablation study is needed.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
