AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
A master thesis from Aalborg University

KLASSIFIKATION AF GENOTYPER MED POSTERIOR SANDSYNLIGHEDER I RETSGENETISKE PROBLEMSTILLINGER

[CLASSIFICATION OF GENOTYPES WITH POSTERIOR PROBABILITIES IN PROBLEMS OF FORENSIC GENETICS]

Forfatter(e)

Semester

2. Semester (Kandidat)

Uddannelse

Udgivelsesår

2022

Afleveret

2022-12-21

Antal sider

44 pages

Abstract

Den trænede model klassificerede fremtidige observationer i genotyper baseret på signalintensiteterne fra A og B. I denne rapport var den trænede model baseret på multinomial logistisk regression (MLR), og procentdelen af korrekt klassificerede observationer angiver modelpræcisionen, som er målt på "accuracy". For at øge modellens præcision blev der introduceret en gruppe kaldet no-call for datapunkter med maksimal posterior sandsynlighed under en given tærskel. Ved visualisering af klyngerne svarende til de tre genotyper blev det observeret, at der kunne eksistere et symmetrisk forhold mellem klyngerne omkring identitetslinjen. Hvis genotyperne viste sig at være symmetriske omkring identitetslinjen, kunne der konstrueres en forenklet klassifikationsmodel. Den forenklede model ville derefter blive testet for at undersøge, om der kunne opnås en lignende klassificering som MLR-modellen. Det blev testet, om kovariansmatricerne og midlerne til de homozygote genotyper var symmetriske ved hjælp af Box's M-test og Hotellings T^2-test. Disse tests viste, at kovariansmatricerne ikke var symmetriske, men midlerne var symmetriske. Ved test af, om den heterozygote genotype var symmetrisk omkring identitetslinjen, blev der udført en korrelationstest og en t-test. Testene viste, at den heterozygote genotype ikke var symmetrisk omkring identitetslinjen. Da genotyperne viste sig ikke at være symmetriske omkring identitetslinjen, blev der lavet en guide til konstruktion af en forenklet klassifikationsmodel i stedet for at konstruere en egentlig model. Det kan konkluderes, at en model konstrueret med multinomial logistisk regression klassificerede observationer med en nøjagtighed på 96,3% fra signalerne A og B sammenlignet med WGS, og efter introduktion af no-call blev der opnået en nøjagtighed på 97,7%. MLR-modellen opnåede en acceptabel nøjagtighed, men MLR-modellen fejlklassificerede stadig nogle observationer efter indførelsen af no-call. Som videreudvikling kunne det undersøges, om genotyperne ville blive symmetriske omkring identitetslinjen ved at manipulere størrelserne på grupperne.

The trained model classified future observations into genotypes based on the signal intensities from A and B. In this report, the trained model was based on multinomial logistic regression (MLR) and the percentage of correctly classified observations is defined as the accuracy of the model. To increase the precision of the model, a group called no-call was introduced for data points with maximum posterior probability beneath a given threshold. When visualizing the clusters corresponding to the three genotypes, it was observed that a symmetrical relationship could exist between the clusters around the identity line. If the genotypes were found to be symmetrical around the identity line, a simplified classification model could be constructed. The simplified model would then be tested to investigate if a similar classification to the MLR model could be obtained. It was tested whether the covariance matrices and means of the homozygous genotypes were symmetrical using Box's M-test and Hotelling's T^2-test. These tests showed that the covariance matrices were not symmetrical, but the means were symmetrical. When testing whether the heterozygous genotype was symmetrical around the identity line a correlation test and a t-test were conducted. The tests showed that the heterozygous genotype was not symmetrical around the identity line. As the genotypes were shown not to be symmetrical around the identity line, a guide to construct a simplified classification model was made, rather than constructing an actual model. It can be concluded that a model constructed with multinomial logistic regression classified observations with an accuracy of 96.3% from the signals A and B compared to WGS, and after introduction of no-call, an accuracy of 97.7% was achieved. The MLR model obtained an acceptable accuracy, however the MLR model still misclassified some observations after the introduction of no-call. As further development, it could be investigated whether the genotypes would become symmetrical around the identity line by manipulating the sizes of the groups.

Emneord

Dokumenter


Kolofon: Denne side er en del af AAU Studenterprojekter — Aalborg Universitets studenterprojektportal. Her kan du finde og downloade offentligt tilgængelige kandidatspecialer og masterprojekter fra hele universitetet fra 2008 og frem. Studenterprojekter fra før 2008 kan findes i trykt form på Aalborg Universitetsbibliotek.

Har du spørgsmål til AAU Studenterprojekter eller Aalborg Universitets forskningsregistrering, formidling og analyse, er du altid velkommen til at kontakte VBN-teamet. Du kan også læse mere i AAU Studenterprojekter FAQ.