KLASSIFIKATION AF GENOTYPER MED POSTERIOR SANDSYNLIGHEDER I RETSGENETISKE PROBLEMSTILLINGER

Oversat titel

CLASSIFICATION OF GENOTYPES WITH POSTERIOR PROBABILITIES IN PROBLEMS OF FORENSIC GENETICS

Forfattere

Uhrbrand, Sofie Lovise ; Christiansen, Micklas Visby ; Steen, Sarah Elise

Semester

2. Semester (Kandidat)

Uddannelse

Matematik og statistik (Sidefag)

Udgivelsesår

2022

Afleveret

2022-12-22

Resumé

Denne rapport undersøger, hvordan man kan klassificere observationer i tre genotyper ud fra signalintensiteterne A og B. Modellen bygger på multinomial logistisk regression (MLR), en statistisk metode der kan fordele data i flere kategorier, og præcisionen måles som andelen af korrekt klassificerede observationer (accuracy). For at øge pålideligheden blev der indført en no-call-kategori: hvis modellens højeste beregnede efterfølgende sandsynlighed (posterior) lå under en fast tærskel, blev observationen ikke tildelt en genotype. Visualisering af klynger for de tre genotyper indikerede mulig symmetri omkring identitetslinjen (diagonalen hvor A = B). Hvis sådan symmetri fandtes, kunne en enklere klassifikationsmodel være mulig og derefter sammenlignes med MLR. Symmetri for de to homozygote genotyper (to ens varianter) blev testet ved hjælp af Box' M-test for kovariansmatricer og Hotellings T^2-test for midler. Testene viste, at kovariansmatricerne ikke var symmetriske, mens midlerne var det. For den heterozygote genotype (to forskellige varianter) blev symmetri omkring identitetslinjen vurderet med en korrelationstest og en t-test; her fandtes ingen symmetri. Da genotyperne samlet set ikke var symmetriske omkring identitetslinjen, blev der i stedet udarbejdet en vejledning til, hvordan en forenklet model kan konstrueres, frem for at bygge en konkret model. Den MLR-baserede model opnåede 96,3% nøjagtighed sammenlignet med WGS (helgenomsekventering) baseret på signalerne A og B; med no-call steg nøjagtigheden til 97,7%. Resultaterne er acceptable, men enkelte observationer blev stadig fejlklassificeret, selv med no-call. Fremtidigt arbejde kan undersøge, om justering af gruppestørrelser kan skabe symmetri og dermed muliggøre en enklere model.

This report examines how to classify observations into three genotypes from two signal intensities, A and B. The model uses multinomial logistic regression (MLR), a statistical method that assigns data to multiple categories, and performance is measured as the percentage of correctly classified observations (accuracy). To improve reliability, a no-call category was introduced: if the model’s highest posterior probability fell below a chosen threshold, the observation was left unassigned. Visualizing the clusters for the three genotypes suggested a possible symmetry around the identity line (the diagonal where A = B). If such symmetry existed, a simpler classification model could be built and then compared with MLR. Symmetry for the two homozygous genotypes (two identical variants) was tested using Box's M test for covariance matrices and Hotelling's T^2 test for means. The tests showed that the covariance matrices were not symmetric, whereas the means were. For the heterozygous genotype (two different variants), symmetry around the identity line was assessed with a correlation test and a t-test; no symmetry was found. Because the genotypes were not symmetric around the identity line overall, a guide for constructing a simplified model was produced instead of implementing one. The MLR model achieved 96.3% accuracy against WGS (whole-genome sequencing) based on signals A and B; with the no-call rule, accuracy increased to 97.7%. The accuracy is acceptable, but some observations were still misclassified even with no-call. Future work could test whether adjusting group sizes induces symmetry and enables a simpler model.

[Dette resumé er omskrevet med hjælp fra AI baseret på projektets originale resumé]

Emneord

supervised learning ; supervised ; learning ; MLR ; multinomial logistisk regression ; multinomial logistic regression ; symmetri ; symmetry

Dokumenter

Download PDF
Vis denne rapport i AAU Studenterprojekter

Et kandidatspeciale fra Aalborg Universitet

KLASSIFIKATION AF GENOTYPER MED POSTERIOR SANDSYNLIGHEDER I RETSGENETISKE PROBLEMSTILLINGER