Prediction Models for Classification

Authors

Schjøtt, Nicolai Søndergaard ; Grøntved, Simon

Term

4. term

Education

Mathematics, Master

Publication year

2019

Abstract

The aim of this thesis is to develop prediction models that classify which children and adolescents are diagnosed with ASD (autism spectrum disorder) or ADHD (attention-deficit/hyperactivity disorder). If the models are sufficiently accurate, they can help support theory in these fields, and highly accurate models could eventually assist clinicians in substantiating a diagnostic suspicion. We began by writing a protocol to request the dataset for the study. Because there was a long delay before receiving the data, we simulated a dataset that we expected would share key properties with the requested data. This proved useful: it taught us how to simulate data, linked theory with practice, and prepared us for the real dataset. Methodologically, we focus on logistic regression (a statistical classification method), using splines to capture non-linear relationships in continuous variables and LASSO to select the most important predictors. We also use non–likelihood-based methods such as classification trees, which likewise informed variable selection. To assess our models, we used several metrics, with a main focus on the area under the ROC curve (AUC), and we applied 10-fold cross-validation to all evaluations. We do not recommend using the current models in practice; instead, we recommend building on our ideas in further research. We encountered challenges for logistic regression due to a time-dependent outcome and informative censoring of predictors. One promising improvement is to add more predictors so that the models can become sufficiently good.

Formålet med dette speciale er at udvikle forudsigelsesmodeller, der kan klassificere hvilke børn og unge der får ASD (autismespektrumforstyrrelse) eller ADHD (opmærksomhedsforstyrrelse med hyperaktivitet). Hvis modellerne er tilstrækkeligt præcise, kan de understøtte teorier på området, og meget præcise modeller kan på sigt hjælpe klinikere med at underbygge en mistanke om diagnose. Vi udarbejdede først en protokol til at bestille det datasæt, specialet skulle bygge på. Da der var lang ventetid på data, simulerede vi i mellemtiden et datasæt med egenskaber, vi forventede lignede det bestilte. Det viste sig nyttigt, fordi vi lærte at simulere data, samlede teori og praksis og blev bedre forberedt på at arbejde med de endelige data. Metodisk fokuserer vi på logistisk regression (en statistisk klassifikationsmetode), hvor vi bruger splines til at fange ikke-lineære sammenhænge i kontinuerte variable og LASSO til at udvælge de vigtigste prædiktorer. Vi anvender også ikke-sandsynlighedsbaserede metoder som klassifikationstræer, som ligeledes bidrager til variabeludvælgelsen. For at vurdere modellerne bruger vi flere mål, med særlig vægt på arealet under ROC-kurven (AUC), og vi krydsvaliderer alle mål med 10-fold for at teste generaliserbarhed. Vi anbefaler ikke, at de nuværende modeller bruges i praksis; i stedet foreslår vi, at vores idéer videreudvikles i fremtidig forskning. Vi oplever især udfordringer for logistisk regression med et tidsafhængigt respons og informativ censurering af prædiktorer. En central forbedringsmulighed er at tilføje flere relevante prædiktorer, så modellerne kan blive tilstrækkeligt gode.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Prediction Models for Classification