Konsistent karaktergivning med kunstig intelligens - Et eksperimentelt studie om støjreduktion og tillid ved brug af en LL-model som medbedømmer
Oversat titel
Consistent grading with artificial intelligence - An experimental study on noise reduction and trust when using an LL model as a co-assessor
Forfattere
Roersen, Anne Balsby ; Revsbech, Line Højris ; Laursen, Maria
Semester
4. semester
Uddannelse
Udgivelsesår
2024
Resumé
Karakterer i folkeskolens afgangsprøver har stor betydning, men når én lærer alene bedømmer skriftlige prøver, opstår der støj og stor variation. Dette speciale undersøger, om en stor sprogmodel (LLM) kan fungere som medbedømmer og dermed reducere støj i karaktergivningen i skriftlig dansk, samt hvilken rolle tillid spiller for brugen af modellen. Vi gennemfører et surveyeksperiment, hvor lærere først bedømmer en elevtekst, derefter modtager en medbedømmervurdering (oplyst som enten AI eller menneske), angiver deres tillid og fastsætter en endelig karakter. Analysen viser markant variation i den indledende bedømmelse, men at støjen reduceres med omkring 35 %, når en medbedømmer inddrages – uanset om denne opfattes som AI eller menneske. LLM’en er desuden mindre støjende end den gennemsnitlige lærer. Samtidig finder vi lavere tillid til AI end til et menneske, hvilket fører til underbrug af AI-medbedømmeren; dog påvirker denne underbrug ikke nødvendigvis den samlede støjreduktion i den endelige karakter. Specialet drøfter implikationer for implementering, herunder behovet for viden og tillid til modellerne, og anbefaler at tydeliggøre modellernes kompetencer og lærernes fortsatte professionelle ansvar.
Grades in Denmark’s final elementary school exams carry high stakes, yet single-assessor grading of written Danish introduces noise and large variation. This thesis tests whether a large language model (LLM) can act as a co-assessor to reduce grading noise and examines how trust shapes the use of the model. We run a survey experiment in which teachers first grade a student essay, then receive a co-assessor’s assessment (described as either AI or human), report their trust, and set a final grade. We find substantial variation in initial grading, but a roughly 35% reduction in noise when a co-assessor is used—regardless of whether it is believed to be AI or human. The LLM is also less noisy than the average teacher. At the same time, trust in AI is lower than in a human co-assessor, leading to under-use of the AI’s input; however, this under-use does not necessarily diminish the overall reduction in noise in the final grade. We discuss implementation implications, stressing the importance of knowledge and trust, and recommend communicating the models’ competencies while reaffirming teachers’ professional responsibility.
[Dette resumé er genereret med hjælp fra AI direkte fra projektet (PDF)]
Emneord
Støj ; Støjreduktion ; Varians ; Variabilitet ; Kahneman ; Parasuraman & Riley ; Karaktergivning ; LLM ; ML ; AI ; LL ; DL ; deep learning ; machine learning ; Large Language Models ; Brug ; Underbug ; Overbrug ; Tillid ; Medbedømmer ; Samarbejde ; Folkeskolen ; Dansk skriftlig fremstilling ; Dansk ; Folkeskolens afgangseksamen ; Forvaltning
