AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et kandidatspeciale fra Aalborg Universitet
Book cover


Vejen til eliten: Kan dit tidlige liv prædiktere din vej til toppen af det sociale hierarki - en transformerbaseret prædiktion af eliteudfald med dansk registerdata

Oversat titel

The Path to the Elite: Can your childhood trajectory predict your path to the top of the social hierarchy - a transformer-based prediction of elite outcomes with Danish Register Data

Forfattere

;

Semester

4. semester

Udgivelsesår

2025

Afleveret

Antal sider

85

Resumé

Dette speciale i krydsfeltet mellem sociologi og social data science undersøger, om transformer-baserede modeller kan finde sjældne, men betydningsfulde voksenudfald ud fra barndomsforløb. Med omfattende danske registerdata følger vi 140.708 personer født over tre årgange fra fødsel til 17-års-alderen med årlige observationer på cirka 60 familie-, socioøkonomiske og sociospatiale forhold. Vi forudsiger seks former for elitestatus omkring 40-års-alderen, defineret som: indkomst-elite de øverste 5 procent i årlig indkomst; område-elite bopæl i Danmarks fem mest eliteprægede mikroområder; uddannelses-elite gennemført højprestige-uddannelser med de højeste gennemsnitsindkomster; by-elite bopæl i en af fire større byer kombineret med en kandidatgrad og mindst 1,5 gange median årlig indkomst; leder-elite en ledende stilling på højt niveau; selvstændig-elite selvstændig beskæftigelse kombineret med mindst dobbelt så høj årlig indkomst som medianen. Vi omsætter hvert barns årlige baggrundsoplysninger og hændelser til en lang sekvens, der efterligner tekst, og træner en transformer på disse sekvenser. Vi anvender standardtrin som kodning, padding, attention-masker og embedding-lag med lærbare positions-embeddings samt superviseret træning beslægtet med sprogmodeller. For at håndtere skæv klassefordeling med færre end 5 procent positive tilfælde bruger vi dynamisk vægtning af observationer, focal loss og tunede thresholds. For indkomst-elite opnår modellen en ROC AUC på 0,757, og for by-elite 0,755. Uddannelses- og område-elite opnår 0,713 og 0,720. Leder- og selvstændig-elite ligger lavere med 0,648 og 0,647, blandt andet fordi meget små positive undergrupper gav mindre træningsdata. Threshold-tuning understøtter robust evaluering på data uden for træning og gør det muligt at prioritere højere recall for positive udfald til videre analyse af klynger og undergrupper. Samlet peger resultaterne på, at det at behandle livsforløb som sprog for transformers er en stærk og fleksibel metode til at opdage skjulte mønstre i registerbaserede populationsdata. Samtidig er datamængde vigtig, og ekstrem klasse-ubalancer kan begrænse træning og præcision.

This thesis at the intersection of sociology and social data science examines whether transformer-based models can identify rare but meaningful adult outcomes from childhood trajectories. Using comprehensive Danish registry data, we follow 140,708 people born in a three-year span from birth to age 17, with yearly observations on about 60 family, socio-economic and socio-spatial factors. We predict six forms of elite attainment around age 40, defined as: income elite top 5 percent of annual income; area elite residence in Denmark’s five most elite micro-areas; educational elite completion of high-prestige programs associated with the highest average incomes; city elite residence in one of four major cities combined with a master’s degree and at least 1.5 times the median annual income; managerial elite a high-level managerial position; self-employed elite self-employment combined with at least twice the median annual income. We recast each child’s yearly background variables and events as a long sequence that mimics text and train a transformer on these sequences. We use standard steps such as encoding, padding, attention masks and embeddings with learnable position embeddings, and supervised training similar to language models. To address class imbalance with fewer than 5 percent positive cases, we apply dynamic instance weighting, focal loss and tuned decision thresholds. For income elite, the model reaches a ROC AUC of 0.757, and for city elite 0.755. Educational and area elite reach 0.713 and 0.720. Managerial and self-employed elite perform lower at 0.648 and 0.647, partly because very small positive subgroups reduced training data. Threshold tuning supports robust out-of-sample evaluation and allows us to prioritize higher recall for positive cases for further analysis of clusters and subgroups. Overall, treating life trajectories as language for transformers offers a powerful and flexible way to detect latent life-course patterns in register-based population data. At the same time, sufficient data volume matters, and extreme class imbalance can constrain training and prediction performance.

[Dette resumé er omskrevet med hjælp fra AI baseret på projektets originale resumé]