AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et kandidatspeciale fra Aalborg Universitet
Book cover


Statistisk analyse af big data

Oversat titel

Statistical analysis of big data

Forfatter

Semester

2. Semester (Kandidat)

Udgivelsesår

2019

Afleveret

Antal sider

73

Resumé

Denne afhandling undersøger, hvordan klassiske statistiske metoder kan tilpasses til analyse af meget store datasæt i en sundhedskontekst. Udgangspunktet er regressionsanalyse og hypotesetest, med fokus på generelle og generaliserede lineære modeller, logistisk regression samt regulerede modeller som lasso, ridge og elastisk net (med k-fold krydsvalidering). Teorien anvendes på datasættet “Gene”, der rummer udtryksniveauer for 6658 gener målt hos 15 raske personer og 15 personer med en hudsygdom, med det formål at identificere diagnostisk relevante gener. Resultaterne viser, at logistisk lasso og elastisk net – med større vægt på lasso-komponenten – giver mere sparsomme modeller med færre variabler end ridge regression. Hypotesetestning er kun anvendelig i big data, når p-værdier justeres; procedurer, der kontrollerer falsk opdagelsesrate (FDR), er mere effektive end dem, der kontrollerer family-wise error rate (FWER). Konkret gav Benjamini–Hochberg-algoritmen den forventede forbedring, mens Holms procedure var mindre nyttig. Under specifikke kontrolparametre blev modellen reduceret fra 6658 til henholdsvis 4 (lasso) og 5 (Benjamini–Hochberg) kandidater, med mulighed for at udvide antallet efter behov. Dataanalysen er udført i R. Den medicinske validering af de udpegede gener ligger uden for projektets rammer og kræver yderligere undersøgelser.

This thesis examines how established statistical methods can be adapted to analyze very large datasets in a healthcare setting. It focuses on regression analysis and hypothesis testing, covering general and generalized linear models, logistic regression, and regularized models such as lasso, ridge, and elastic net (with k-fold cross-validation). The methods are applied to the “Gene” dataset containing expression levels for 6,658 genes measured in 15 healthy individuals and 15 individuals with a skin disease, aiming to identify genes relevant for diagnosis. Findings indicate that logistic lasso and elastic net—with more weight on the lasso component—produce sparser models with fewer variables than ridge regression. Hypothesis testing is only useful in big data when p-values are adjusted; procedures controlling the false discovery rate (FDR) are more effective than those controlling the family-wise error rate (FWER). In this case, the Benjamini–Hochberg algorithm yielded the expected improvement, while Holm’s procedure was less useful. Under specific control parameters, the model was reduced from 6,658 features to 4 (lasso) and 5 (Benjamini–Hochberg) candidates, with flexibility to expand the feature set if needed. The data analysis was conducted in R. Medical validation of the selected genes is beyond the scope of this project and requires further study.

[Dette resumé er genereret med hjælp fra AI direkte fra projektet (PDF)]