Udvikling af en explainable machine learning model til detektion af prædiabetes

Oversat titel

Development of an Explainable Machine Learning Model for the Detection of Prediabetes

Forfattere

Sørensen, Andrés Rose Millan ; Sørensen, Michelle Vittrup

Semester

4. semester

Uddannelse

Klinisk Videnskab og Teknologi, Kandidat (KVT)

Udgivelsesår

2025

Afleveret

2025-06-02

Resumé

Baggrund: Prædiabetes giver typisk ingen symptomer, men er klinisk vigtig og overses ofte. I klinisk praksis bygger de mest brugte og validerede tests på laboratoriemålinger som langtidsblodsukker (HbA1c), fasteplasmaglukose (FPG) og oral glukosebelastningstest (OGTT). Formål: Specialet havde til formål at udvikle og evaluere forklarlige maskinlæringsmodeller til at opspore prædiabetes udelukkende ud fra risikofaktorer, der ikke kræver laboratorietests. Metode: Data fra NHANES 2011–2016 blev brugt til at udvikle tre separate beslutningstræ-modeller, hvor prædiabetes blev defineret ud fra én laboratorieparameter ad gangen (HbA1c, FPG eller OGTT). Udviklingen omfattede præprocessering og modellering. Input bestod af 17 variable om kropsmålinger (antropometri), demografi og livsstil. Resultater: Modellerne havde høj følsomhed (recall: 0,670–0,918), dvs. de fangede mange af dem med prædiabetes, men en begrænset evne til at skelne mellem personer med og uden tilstanden (AUC: 0,588–0,666). Bemærkelsesværdigt var, at HbA1c- og OGTT-modellerne kun anvendte én inputvariabel (alder), mens FPG-modellen anvendte to (talje-højde-ratio og køn). Konklusion: Forklarlig maskinlæring kan bruges til at identificere personer med prædiabetes ud fra ikke-laboratorieafhængige data. Modeller med høj følsomhed kan være relevante til screening, men den lave AUC peger på behov for bedre datagrundlag og metoder, før en bred implementering kan anbefales.

Background: Prediabetes typically has no symptoms but is clinically important and often goes undiagnosed. In clinical practice, the most used and validated tests rely on laboratory measures such as HbA1c (long-term blood sugar), fasting plasma glucose (FPG), and the oral glucose tolerance test (OGTT). Objective: This thesis aimed to develop and evaluate explainable machine learning models to detect prediabetes using only non-laboratory risk factors. Methods: Data from NHANES 2011–2016 were used to build three separate decision tree models, each defining prediabetes by a single laboratory parameter (HbA1c, FPG, or OGTT). The workflow included preprocessing and modeling. Inputs comprised 17 variables related to anthropometry, demographics, and lifestyle. Results: The models achieved high sensitivity (recall: 0.670–0.918), meaning they correctly identified many people with prediabetes, but showed limited discrimination (AUC: 0.588–0.666). Notably, the HbA1c and OGTT models used only age as input, while the FPG model used two variables (waist-to-height ratio and sex). Conclusion: Explainable machine learning can help identify individuals with prediabetes from non-laboratory data. High-sensitivity models may be useful for screening, but the low AUC highlights the need for improved data and methods before broad implementation.

[Dette resumé er omskrevet med hjælp fra AI baseret på projektets originale resumé]

Dokumenter

Download PDF
Vis denne rapport i AAU Studenterprojekter

Et kandidatspeciale fra Aalborg Universitet

Udvikling af en explainable machine learning model til detektion af prædiabetes