• Sofie Lovise Uhrbrand
  • Micklas Visby Christiansen
  • Sarah Elise Steen
2. Semester (Kandidat), Matematik og statistik (Sidefag) (Tilvalgsfag eller Sidefag)
Den trænede model klassificerede fremtidige observationer i genotyper baseret på signalintensiteterne fra A og B. I denne rapport var den trænede model baseret på multinomial logistisk regression (MLR), og procentdelen af korrekt klassificerede observationer angiver modelpræcisionen, som er målt på "accuracy". For at øge modellens præcision blev der introduceret en gruppe kaldet no-call for datapunkter med maksimal posterior sandsynlighed under en given tærskel.

Ved visualisering af klyngerne svarende til de tre genotyper blev det observeret, at der kunne eksistere et symmetrisk forhold mellem klyngerne omkring identitetslinjen. Hvis genotyperne viste sig at være symmetriske omkring identitetslinjen, kunne der konstrueres en forenklet klassifikationsmodel. Den forenklede model ville derefter blive testet for at undersøge, om der kunne opnås en lignende klassificering som MLR-modellen. Det blev testet, om kovariansmatricerne og midlerne til de homozygote genotyper var symmetriske ved hjælp af Box's M-test og Hotellings T^2-test.
Disse tests viste, at kovariansmatricerne ikke var symmetriske, men midlerne var symmetriske. Ved test af, om den heterozygote genotype var symmetrisk omkring identitetslinjen, blev der udført en korrelationstest og en t-test. Testene viste, at den heterozygote genotype ikke var symmetrisk omkring identitetslinjen. Da genotyperne viste sig ikke at være symmetriske omkring identitetslinjen, blev der lavet en guide til konstruktion af en forenklet klassifikationsmodel i stedet for at konstruere en egentlig model.

Det kan konkluderes, at en model konstrueret med multinomial logistisk regression klassificerede observationer med en nøjagtighed på 96,3% fra signalerne A og B sammenlignet med WGS, og efter introduktion af no-call blev der opnået en nøjagtighed på 97,7%. MLR-modellen opnåede en acceptabel nøjagtighed, men MLR-modellen fejlklassificerede stadig nogle observationer efter indførelsen af no-call.

Som videreudvikling kunne det undersøges, om genotyperne ville blive symmetriske omkring identitetslinjen ved at manipulere størrelserne på grupperne.
SprogDansk
Udgivelsesdato22 dec. 2022
Antal sider44
ID: 506523323