Revisiting Bilevel Optimization for Aligning Self-Supervised Pretraining with Downstream Fine-Tuning: Advancing BiSSL Through Systematic Vari ations, Novel Design Modifications, and Adaptation to New Data Domains
Author
Zakarias, Gustav Wagner
Term
4. semester
Education
Publication year
2025
Pages
99
Abstract
Dette speciale undersøger BiSSL, en ramme der ser den almindelige arbejdsgang—først fortræning uden mærkede data (selv-overvåget læring), derefter finjustering til en konkret opgave—som et optimeringsproblem i to niveauer. Fortræningen er det nedre niveau, finjusteringen det øvre. På det nedre niveau tilføjes en svag begrænsning (regularisering), der får modellens parametre til at ligne dem, som det øvre niveau foretrækker. Formålet er at give en bedre start for finjusteringen, så modellen passer bedre til den endelige opgave. Arbejdet udvider studiet af BiSSL ved først at måle, hvor følsom metoden er over for ændringer i træningsindstillinger (hyperparametre). Dernæst foreslås og testes designændringer: automatisk justering af styrken af regulariseringen på det nedre niveau samt mere generaliserede udtryk for gradienter på det øvre niveau. Til sidst tilpasses BiSSL til naturlig sprogbehandling ved at bruge en almindelig sprogmodelopgave fra generative fortrænede transformere (at forudsige næste ord), og metoden evalueres på flere forskellige efterfølgende opgaver. Resultaterne viser, at BiSSL er robust over for variationer i de fleste hyperparametre, hvis træningen får lov at køre længe nok. De foreslåede designændringer giver ikke konsekvente forbedringer og kan endda forringe ydeevnen. På NLP-opgaver opnår BiSSL lejlighedsvis gevinster og matcher ellers baseline. Samlet set fremstår den oprindelige BiSSL-udformning robust og effektiv og kan forbedre nøjagtighed på efterfølgende opgaver på tværs af inputdomæner.
This thesis examines BiSSL, a framework that treats the common workflow—first pretraining a model without labels (self-supervised learning), then fine-tuning it on a specific task—as a two-level optimization problem. Pretraining is the lower level and fine-tuning is the upper level. At the lower level, a gentle constraint (regularization) nudges the model’s parameters to resemble those favored by the upper level, aiming to give fine-tuning a starting point that is better aligned with the final task. We extend the study of BiSSL in three steps. First, we measure how sensitive it is to changes in training settings (hyperparameters). Next, we propose and test design modifications: automatically scaling the strength of the lower-level regularization and using more general upper-level gradient formulations. Finally, we adapt BiSSL to natural language processing using a standard language-modeling pretext task from generative pretrained transformers (predicting the next word) and evaluate it on a range of downstream tasks. Results show that BiSSL is robust to variations in most hyperparameters, provided training runs are sufficiently long. The proposed design changes do not produce consistent improvements and can even reduce performance. For NLP tasks, BiSSL sometimes delivers gains and otherwise matches the baseline. Overall, the original BiSSL design appears robust and effective, and can improve downstream accuracy across different input domains.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
