AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et kandidatspeciale fra Aalborg Universitet
Book cover


Ud af Mange, En.: En undersøgelse af effekterne af model, temperatur og prompting på varians af LLM-generede syntetisk spørgeskema data i en dansk kontekst.

Oversat titel

Out of Many, One.: An examination of the effects of model, temperature, and prompting on the variance of LLM-generated synthetic survey data in a Danish context.

Forfatter

Semester

4. semester

Udgivelsesår

2025

Afleveret

Antal sider

595

Resumé

Spørgeskemaer er centrale i samfundsvidenskab, men faldende svarprocenter har skabt interesse for at bruge store sprogmodeller (LLM’er) til at lave syntetiske data. Et kendt problem er, at modelsvar har for lille spredning sammenlignet med menneskers. Dette studie undersøger, om nyere modeller og enkle justeringer—ændringer i temperatur (en indstilling der styrer tilfældighed) og prompt (den instruktion modellen får)—kan afhjælpe denne 'trunkerede varians'. Med Silicon Sampling bad jeg modellerne påtage sig personas baseret på danske demografier og svar fra Tryghedsmålingen 2024 og genererede 1.000 personas, som blev sammenlignet med et menneskeligt baseline. Jeg testede GPT-3.5-turbo, GPT-4.1 og o3 ved temperatur 1 og 2, hver med en 'flawed' og en 'improved' prompt. På tværs af betingelserne klarede modellerne sig dårligere end antydet i tidligere forskning: svarene havde for lille spredning og viste skævhed i gennemsnittet, både samlet og på enkeltspørgsmål. Nyere modeller var mindre i stand til at genskabe menneskelignende fordelinger på item-niveau, muligvis på grund af stærkere alignment (træning mod sikre og ensartede svar). Temperatur var enten irrelevant, utilstrækkelig eller førte til mange fejl i besvarelserne. Prompt-effekter var ustabile og varierede med model og temperatur. Det peger på, at nylige LLM-fremskridt ikke har løst problemet med for lille variation, og at de almindelige metoder foreløbig er utilstrækkelige. Afslutningsvis diskuterer jeg mulige konsekvenser og risici ved LLM-genererede syntetiske data for forskning og samfund.

Surveys are central to social science, but falling response rates have prompted interest in using large language models (LLMs) to generate synthetic survey data. A known issue is that model answers show too little spread compared with human data. This study tests whether newer models and simple tweaks—changing the temperature (a setting that controls randomness) and the prompt (the instructions given to the model)—can reduce this 'truncated variance.' Using Silicon Sampling, I asked models to adopt personas built from Danish demographics and responses in Tryghedsmålingen 2024, and generated 1,000 personas to compare with a real human baseline. I evaluated GPT-3.5-turbo, GPT-4.1, and o3 at temperatures 1 and 2, each with a 'flawed' and an 'improved' prompt. Across conditions, the models performed worse than earlier research suggested: answers were under-dispersed and showed mean bias, both overall and for individual questions. Newer models were less able to reproduce human-like distributions at the item level, possibly due to stronger alignment (training that encourages safer, more uniform outputs). Temperature was either not applicable, not enough, or led to many failed responses. Prompt effects were inconsistent and varied by model and temperature. These results indicate that recent LLM advances have not solved the truncated variance problem, and that commonly used fixes are currently inadequate. I conclude by outlining potential implications and risks of LLM-generated synthetic data for research and for society.

[Dette resumé er omskrevet med hjælp fra AI baseret på projektets originale resumé]