Regressionsmodeller og variabel selektion for genomisk data af høj dimension

Studenteropgave: Kandidatspeciale og HD afgangsprojekt

  • Regitze Kuhr Skals
4. semester, Matematik, Kandidat (Kandidatuddannelse)
I dette speciale er der arbejdet med regressions modeller anvendelige til genomisk data af høj dimension. Mere specifikt er der arbejdet på at finde en model, der kan forudsige en persons alder ud fra dennes DNA. Problemstillingen er særligt interessant indenfor retsgenetik, idet at det vil være en fordel i forbindelse med efterforskningen af kriminalsager at kunne forudsige alderen på en mistænkt ud fra et DNA spor. Man vil så kunne reducere antallet af mistænkte. Derudover vil en bestemt alder på en person være et godt spor at gå ud fra, hvis politiet ikke har andre spor af gerningsmanden.

Det er en bestemt process i forbindelse med gen-ekspressionen kaldet DNA metylering, som har vist en sammenhæng med alder. Denne process kan måles ved hjælp af en teknologi fra Illumina. 485.000 forskellige steder på DNA'et i forskellige gener kaldet markører, kan med denne teknologi måles for raten af DNA-metylering ved hjælp af et micro array. I dette speciale er DNA-metylering blevet målt i 50 blodprøver fra 45 personer i alderen 15-82 år. Formålet var så at finde nogle få markører ud af de 485.000 målte markører, der bedst kunne forklare en persons alder. Dette var ønskeligt, da det ikke er muligt at indsamle nok DNA fra et gerningssted til at kunne analysere mere end omkring 12-24 markører. Udover at finde nogle gode markører til at forudsige alderen, var det også vigtigt at disse markører ville kunne bruges gentagne gange til at prædiktere alderen på en mistænkt. Det skulle derfor også være nogle stabile markører, der ville kunne bruges på enhver persons DNA.

Det, at der var 50 observationer til rådighed og flere hundrede tusinde variable, der skulle undersøges for hver observation, klassificerede data som værende høj dimensionelt. Det er ikke muligt at anvende standard regressions metoder på høj dimensionelt data, da disse metoder kræver, at data indeholder flere observationer end variable. Metoderne der er blevet anvendt i forbindelse med at løse problemstillingen, er derfor shrinkage-metoderne Ridge regression, Elastic net og Lasso. Metoderne er baseret på least squares metoden, hvor der er tilføjet en straf parameter. De egner sig derfor til høj dimensionelt data, idet at denne straf parameter tillægger modellen en smule bias, og dermed opnås et bias-variance trade-off for modellen, som medfører, at det er muligt at anvende flere variable end observationer i modellen. Derudover er dimensions-reduktions metoden Partial least squares også blevet anvendt. Denne metode laver et reduceret antal af nye variable ud fra lineære kombinationer af de oprindelige variable, og på denne måde kan de reducerede nye variable benyttes i en standard lineær model.

Fordelen ved metoderne Elastisk net og Lasso var, at disse også udførte selektion af variable. Med disse metoder var det muligt at få udvalgt et udsnit af de 485.000 markører. For at finde stabile markører i blandt de udvalgte, blev metoderne kombineret med Stability selection.

Efter at have anvendt de forskellige metoder på data, blev en Ridge regression model med 18 markører fundet som den bedste ud fra RMSE til at forudsige alderen ud fra metyleret DNA i blodet. Modellen var et resultat af at anvende Elastisk net kombineret med Stability selection.
SprogEngelsk
Udgivelsesdato10 jun. 2015
Antal sider79
Udgivende institutionDept. of Mathematical Sciences, Aalborg University
Ekstern samarbejdspartnerRetsgenetisk Afdeling, Københavns Universitet
Institutleder Niels Morling Niels.Morling@sund.ku.dk
Anden
ID: 213876578