AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et kandidatspeciale fra Aalborg Universitet
Book cover


Prædiktion af Individers Afstamning ved Anvendelse af Ancestry Informative Markers

Oversat titel

Predicting the Ancestry of Individuals using Ancestry Informative Markers

Forfatter

Semester

4. semester

Uddannelse

Udgivelsesår

2019

Antal sider

63

Abstract

Dette speciale undersøger, hvordan man kan vurdere en persons afstamning ved hjælp af Ancestry Informative Markers (AIMs), som er genetiske variationer med forskellige frekvenser i forskellige befolkningsgrupper. Vi opstiller en statistisk hypotesetest, der vurderer, om en konkret genetisk profil sandsynligvis stammer fra en bestemt population. For at udvælge de markører, der bedst skelner mellem populationer, anvender vi tre metoder: klassifikationstræer, random forest og lasso‑regression. Vi undersøger også hver markørs egenskaber, herunder sensitivitet (hvor godt markøren bidrager til at skelne mellem populationer), dækning/coverage (hvor ofte markøren giver et resultat) og dropout (når en markør ikke aflæses eller mangler i data). Resultaterne viser, at klassifikationstræer kombineret med filtrering af de mindst informative markører giver de bedste modeller. Det førte til to modeller, CART20 og CART50, med henholdsvis 21 og 7 markører. Blandt markørerne er rs671, rs3811801, rs1800414, rs4821004, rs2125345 og rs2899826 de mest sensitive. Markørerne rs1296819, rs12439433 og rs4833103 er mest tilbøjelige til dropout.

This thesis examines how to infer a person’s ancestry using Ancestry Informative Markers (AIMs), which are genetic variants that occur at different frequencies across populations. We develop a statistical hypothesis test to assess whether a specific genetic profile likely comes from a given population. To select the markers that best distinguish populations, we apply three methods: classification trees, random forest, and lasso regression. We also evaluate each marker’s properties, including sensitivity (how well the marker helps separate populations), coverage (how often the marker yields a result), and dropout (when a marker fails to read or is missing in the data). Our results show that classification trees, combined with filtering out the least informative markers, perform best. This led to two models, CART20 and CART50, containing 21 and 7 markers, respectively. The most sensitive markers are rs671, rs3811801, rs1800414, rs4821004, rs2125345, and rs2899826. The markers most prone to dropout are rs1296819, rs12439433, and rs4833103.

[Dette resumé er genereret ved hjælp af AI]