AAU Student Projects - visit Aalborg University's student projects portal
A master thesis from Aalborg University

Regression models and feature selection for high-dimensional genomics data

[Regressionsmodeller og variabel selektion for genomisk data af høj dimension]

Author(s)

Term

4. term

Education

Publication year

2015

Submitted on

2015-06-09

Pages

79 pages

Abstract

I dette speciale er der arbejdet med regressions modeller anvendelige til genomisk data af høj dimension. Mere specifikt er der arbejdet på at finde en model, der kan forudsige en persons alder ud fra dennes DNA. Problemstillingen er særligt interessant indenfor retsgenetik, idet at det vil være en fordel i forbindelse med efterforskningen af kriminalsager at kunne forudsige alderen på en mistænkt ud fra et DNA spor. Man vil så kunne reducere antallet af mistænkte. Derudover vil en bestemt alder på en person være et godt spor at gå ud fra, hvis politiet ikke har andre spor af gerningsmanden. Det er en bestemt process i forbindelse med gen-ekspressionen kaldet DNA metylering, som har vist en sammenhæng med alder. Denne process kan måles ved hjælp af en teknologi fra Illumina. 485.000 forskellige steder på DNA'et i forskellige gener kaldet markører, kan med denne teknologi måles for raten af DNA-metylering ved hjælp af et micro array. I dette speciale er DNA-metylering blevet målt i 50 blodprøver fra 45 personer i alderen 15-82 år. Formålet var så at finde nogle få markører ud af de 485.000 målte markører, der bedst kunne forklare en persons alder. Dette var ønskeligt, da det ikke er muligt at indsamle nok DNA fra et gerningssted til at kunne analysere mere end omkring 12-24 markører. Udover at finde nogle gode markører til at forudsige alderen, var det også vigtigt at disse markører ville kunne bruges gentagne gange til at prædiktere alderen på en mistænkt. Det skulle derfor også være nogle stabile markører, der ville kunne bruges på enhver persons DNA. Det, at der var 50 observationer til rådighed og flere hundrede tusinde variable, der skulle undersøges for hver observation, klassificerede data som værende høj dimensionelt. Det er ikke muligt at anvende standard regressions metoder på høj dimensionelt data, da disse metoder kræver, at data indeholder flere observationer end variable. Metoderne der er blevet anvendt i forbindelse med at løse problemstillingen, er derfor shrinkage-metoderne Ridge regression, Elastic net og Lasso. Metoderne er baseret på least squares metoden, hvor der er tilføjet en straf parameter. De egner sig derfor til høj dimensionelt data, idet at denne straf parameter tillægger modellen en smule bias, og dermed opnås et bias-variance trade-off for modellen, som medfører, at det er muligt at anvende flere variable end observationer i modellen. Derudover er dimensions-reduktions metoden Partial least squares også blevet anvendt. Denne metode laver et reduceret antal af nye variable ud fra lineære kombinationer af de oprindelige variable, og på denne måde kan de reducerede nye variable benyttes i en standard lineær model. Fordelen ved metoderne Elastisk net og Lasso var, at disse også udførte selektion af variable. Med disse metoder var det muligt at få udvalgt et udsnit af de 485.000 markører. For at finde stabile markører i blandt de udvalgte, blev metoderne kombineret med Stability selection. Efter at have anvendt de forskellige metoder på data, blev en Ridge regression model med 18 markører fundet som den bedste ud fra RMSE til at forudsige alderen ud fra metyleret DNA i blodet. Modellen var et resultat af at anvende Elastisk net kombineret med Stability selection.

DNA-methylation is a process that happens in connection with gene expression. This process has shown to be a promising predictor of age. The relation is interesting in the field of forensic science. If the age of a suspect could be predicted on the basis of DNA, a group of suspects could be narrowed down or it could form a lead for the police, if they had no other leads. In this thesis regression models usable for handling high dimensional genomics data of DNA-methylation has been studied. The purpose was to find few good predictors of age among hundreds of thousands, and to determine consistency of those. The methods which were studied for the purpose were Ridge regression, Elastic net and Lasso. Especially Elastic net and Lasso were relevant methods, as they performed variable selection. The consistency of predictors was determined for the Lasso and Elastic net method by Stability selection. Moreover Partial least squares was applied to the data. The final result was a Ridge regression model found by Elastic net combined with Stability selection. It contained $18$ stable predictors, and resulted in an RMSE at 2.43 on the validation data.

Documents


Colophon: This page is part of the AAU Student Projects portal, which is run by Aalborg University. Here, you can find and download publicly available bachelor's theses and master's projects from across the university dating from 2008 onwards. Student projects from before 2008 are available in printed form at Aalborg University Library.

If you have any questions about AAU Student Projects or the research registration, dissemination and analysis at Aalborg University, please feel free to contact the VBN team. You can also find more information in the AAU Student Projects FAQs.