Udvikling af en explainable machine learning model til detektion af prædiabetes
Oversat titel
Development of an Explainable Machine Learning Model for the Detection of Prediabetes
Forfattere
Semester
4. semester
Udgivelsesår
2025
Afleveret
2025-06-01
Antal sider
50
Abstract
Resumé Baggrund: Prædiabetes er en asymptomatisk, men klinisk relevant tilstand, som ofte forbliver udiagnosticeret. Selvom flere screeningsværktøjer baseret på selvrapporterede data eksisterer, er de mest anvendte og validerede tests i klinisk praksis afhængige af laboratoriemålinger som HbA1c, FPG og OGTT. Formål: Dette speciale havde til formål at udvikle og evaluere explainable machine learning (ML) modeller til detektion af prædiabetes udelukkende baseret på ikke-laboratorieafhængige risikofaktorer. Metode: Der blev anvendt data fra NHANES 2011–2016 til at udvikle tre separate Decision Tree-modeller, hvor prædiabetes blev defineret ud fra én laboratorieparameter (HbA1c, FPG eller OGTT). Udviklingen omfattede præprocessering og modellering. Input omfattede 17 variable relateret til antropometri, demografi og livsstil. Resultater: Modellerne opnåede høj sensitivitet (recall: 0.670–0.918), men lav diskriminationsevne (AUC: 0.588–0.666). HbA1c- og OGTT-modellerne anvendte kun én inputvariabel (alder), mens FPG-modellen inkluderede to (talje-højde-ratio og køn). Konklusion: Explainable ML kan anvendes til at identificere personer med prædiabetes baseret på ikke-laboratorieafhængige data. Modeller med høj sensitivitet kan være relevante i screeningssammenhæng, men den lave AUC understreger behovet for forbedret datagrundlag og metode, før bred implementering kan anbefales.
Abstract Background: Prediabetes is an asymptomatic but clinically relevant condition that often remains undiagnosed. Although several screening tools based on self-reported data exist, the most commonly used and validated tests in clinical practice rely on laboratory measurements such as HbA1c, FPG, and OGTT. Aim: This thesis aimed to develop and evaluate explainable machine learning (ML) models for detecting prediabetes based solely on non-laboratory-dependent risk factors. Method: Data from NHANES 2011–2016 were used to develop three separate Decision Tree models, where prediabetes was defined based on a single laboratory parameter (HbA1c, FPG, or OGTT). The development included preprocessing and modeling. Inputs included 17 variables related to anthropometry, demographics, and lifestyle. Results: The models achieved high sensitivity (recall: 0.670–0.918) but low discriminatory power (AUC: 0.588–0.666). The HbA1c and OGTT models used only one input variable (age), while the FPG model included two (waist-to-height ratio and gender). Conclusion: Explainable ML can be used to identify individuals with prediabetes based on non-laboratory-dependent data. Models with high sensitivity may be relevant in a screening context, but the low AUC highlights the need for improved data quality and methodology before broad implementation can be recommended.
