Regression models and feature selection for high-dimensional genomics data

Translated title

Regressionsmodeller og variabel selektion for genomisk data af høj dimension

Author

Skals, Regitze Kuhr

Term

4. term

Education

Mathematics, Master

Publication year

2015

Submitted on

2015-06-10

Pages

Abstract

DNA methylation consists of chemical tags on DNA that can influence how active genes are. These tags change with age and can be used to predict a person’s age. This is useful in forensic investigations: if age can be estimated from DNA, police may narrow a pool of suspects or gain a new lead. This thesis examines regression models suited for high-dimensional DNA methylation data, where there are far more potential markers than samples. The goal was to identify a small set of strong age predictors among hundreds of thousands and to assess how consistently they are selected. We evaluated Ridge regression, Elastic Net, and Lasso. Elastic Net and Lasso are especially relevant because they perform variable selection, picking out the most informative features. For these methods, we used stability selection to assess which predictors are chosen consistently. We also applied Partial Least Squares (PLS). The final model was a Ridge regression using 18 stable predictors identified with Elastic Net combined with stability selection. On validation data, it achieved an RMSE of 2.43, a standard measure of typical prediction error (lower is better).

DNA-methylering er kemiske mærker på DNA, som kan påvirke hvor aktive gener er. Disse mærker ændrer sig med alderen og kan derfor bruges til at forudsige alder. Det gør metoden interessant i retsmedicinsk efterforskning: Hvis politiet kan få et aldersskøn ud fra DNA, kan det indsnævre en gruppe af mulige mistænkte eller give et nyt spor. I denne afhandling undersøger vi regressionsmodeller, der egner sig til højdimensionelle data om DNA-methylering, hvor der er langt flere mulige markører end prøver. Målet var at finde et lille antal gode aldersmarkører blandt hundredtusinder og at vurdere, hvor stabile disse markører er på tværs af analyser. Vi testede Ridge regression, Elastic Net og Lasso. Elastic Net og Lasso er særligt relevante, fordi de kan vælge de vigtigste variable (variabelselektion). For disse metoder brugte vi stabilitetsselektion til at vurdere, hvilke markører der konsekvent bliver udvalgt. Derudover anvendte vi også Partial Least Squares (PLS). Det endelige resultat var en Ridge-regressionsmodel, baseret på 18 stabile markører identificeret med Elastic Net kombineret med stabilitetsselektion. Modellen opnåede en RMSE på 2,43 på validationsdata, et standardmål for, hvor tæt forudsigelserne ligger på de sande værdier (lavere er bedre).

[This apstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Regression models and feature selection for high-dimensional genomics data