Performance of machine learning algorithms: case study of BørneTelefonen
Author
Boonman, Sharona
Term
4. Semester
Publication year
2020
Submitted on
2020-07-31
Pages
71
Abstract
At the Danish child helpline, BørneTelefonen, it can take more than a month to answer children’s messages. Every child deserves a reply, but some situations are more urgent, especially when neglect may be involved. This study examines whether machine learning can help by automatically sorting incoming messages into categories with different response priorities, and what the limits and consequences of such automation are. The main question is how well machine-learning algorithms can classify helpline messages compared with human coders. Two sub-questions guide the work: (1) How accurate are these algorithms compared with humans? (2) What technical, social, cultural, and ethical limitations arise when using them? To assess accuracy, seven machine-learning algorithms were tested on 5,664 messages sent to BørneTelefonen, which human coders had labeled as involving neglect or not. Among the seven, a support vector machine (SVM) performed best. Using the F1 score—a combined measure that balances false alarms and missed cases—the SVM achieved 94% for messages not labeled as neglect and 23% for messages labeled as neglect. This suggests that, in their current form, the models are strong at recognizing non-neglect messages but much weaker at identifying neglect. The scores are expected to improve if future models are trained with ongoing human guidance. We also discuss technical limitations in this dataset, including the language used, spelling and typing errors, and chat/slang style. Using automated classifiers may have societal implications as well. Even if automatic classification is algorithmically possible, it may be necessary to inform people that their message is being classified by an algorithm and offer an option to opt out. Further research is needed to understand ethical issues and to ensure fair and responsible use of machine learning for classifying incoming helpline messages.
BørneTelefonen kan bruge mere end en måned på at besvare beskeder fra børn. Alle børn fortjener et svar, men nogle situationer er mere presserende, især når der kan være tale om omsorgssvigt. Dette studie undersøger, om maskinlæring kan hjælpe ved automatisk at sortere indkomne beskeder i kategorier med forskellige svarprioriteter, og hvilke begrænsninger og konsekvenser sådan automation har. Hovedspørgsmålet er, i hvilket omfang maskinlæringsalgoritmer kan klassificere henvendelser til hjælpelinjer sammenlignet med menneskelige kodere. To delspørgsmål belyser dette: (1) Hvor nøjagtige er algoritmerne sammenlignet med mennesker? (2) Hvilke tekniske, sociale, kulturelle og etiske begrænsninger opstår ved at bruge dem? For at vurdere nøjagtigheden blev syv maskinlæringsalgoritmer testet på 5.664 beskeder til BørneTelefonen, som menneskelige kodere havde mærket som enten med omsorgssvigt eller uden. Blandt de syv klarede en støttevektormaskine (SVM) sig bedst. Målt med F1-score—et samlet mål, der balancerer falske alarmer og oversete sager—opnåede SVM 94 % for beskeder uden omsorgssvigt og 23 % for beskeder med omsorgssvigt. Det tyder på, at modellerne i deres nuværende form er gode til at genkende ikke-omsorgssvigt, men langt svagere til at opdage omsorgssvigt. Scorerne forventes at kunne forbedres, når fremtidige modeller trænes med løbende menneskelig vejledning. Vi diskuterer også tekniske begrænsninger i dette datasæt, herunder sproget i beskederne, stave- og tastefejl samt chat-/slangsprog. Brug af automatiske klassifikatorer kan desuden have samfundsmæssige konsekvenser. Selv om automatisk klassificering er algoritmisk mulig, kan det være nødvendigt at informere afsendere om, at deres besked klassificeres af en algoritme, og give dem mulighed for at fravælge det. Yderligere forskning er nødvendig for at forstå etiske spørgsmål og sikre fair og ansvarlig brug af maskinlæring til at klassificere indkomne henvendelser.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
