Prædiktion af Individers Afstamning ved Anvendelse af Ancestry Informative Markers
Oversat titel
Predicting the Ancestry of Individuals using Ancestry Informative Markers
Forfatter
Nørskov, Martin
Semester
4. semester
Uddannelse
Udgivelsesår
2019
Antal sider
63
Abstract
Dette speciale undersøger, hvordan man kan vurdere en persons afstamning ved hjælp af Ancestry Informative Markers (AIMs), som er genetiske variationer med forskellige frekvenser i forskellige befolkningsgrupper. Vi opstiller en statistisk hypotesetest, der vurderer, om en konkret genetisk profil sandsynligvis stammer fra en bestemt population. For at udvælge de markører, der bedst skelner mellem populationer, anvender vi tre metoder: klassifikationstræer, random forest og lasso‑regression. Vi undersøger også hver markørs egenskaber, herunder sensitivitet (hvor godt markøren bidrager til at skelne mellem populationer), dækning/coverage (hvor ofte markøren giver et resultat) og dropout (når en markør ikke aflæses eller mangler i data). Resultaterne viser, at klassifikationstræer kombineret med filtrering af de mindst informative markører giver de bedste modeller. Det førte til to modeller, CART20 og CART50, med henholdsvis 21 og 7 markører. Blandt markørerne er rs671, rs3811801, rs1800414, rs4821004, rs2125345 og rs2899826 de mest sensitive. Markørerne rs1296819, rs12439433 og rs4833103 er mest tilbøjelige til dropout.
This thesis examines how to infer a person’s ancestry using Ancestry Informative Markers (AIMs), which are genetic variants that occur at different frequencies across populations. We develop a statistical hypothesis test to assess whether a specific genetic profile likely comes from a given population. To select the markers that best distinguish populations, we apply three methods: classification trees, random forest, and lasso regression. We also evaluate each marker’s properties, including sensitivity (how well the marker helps separate populations), coverage (how often the marker yields a result), and dropout (when a marker fails to read or is missing in the data). Our results show that classification trees, combined with filtering out the least informative markers, perform best. This led to two models, CART20 and CART50, containing 21 and 7 markers, respectively. The most sensitive markers are rs671, rs3811801, rs1800414, rs4821004, rs2125345, and rs2899826. The markers most prone to dropout are rs1296819, rs12439433, and rs4833103.
[Dette resumé er genereret ved hjælp af AI]
Emneord
Retsgenetik ; AIMs ; SNP ; Individers afstamning ; Statistik
