• Stine Back Larsen
  • Morten Albeck Nielsen
4. semester, Datalogi, Kandidat (Kandidatuddannelse)
Det moderne samfund er afhængig af fragtskibe, men fragtskibene kan have negativ effekt på marinelivet. Nordkaperen er en truet hvalart, og det ønskes derfor at minimere fragtskibes negative indflydelse på denne hvalart. Nordkaperen udsender ofte en karakteristisk lyd kaldet et up-call, som kan bruges til at detektere, om en Nordkaper hval er i et bestemt område. Et system, som ved hjælp af hydrofoner kan detektere, om en Nordkaper er i et bestemt område, er blevet konstrueret af Cornell University's Bioacoustic Research Program. I den forbindelse ønskes et klassificeringssystem, som kan genkende up-calls i lydoptagelser fra andre havlyde. Til dette formål er der stillet lydfiler af havlyde til rådighed. Disse er blevet annoteret med en label, der angiver om lydfilen indeholder et up-call eller ej. I dette speciale laves der et klassificeringssystem til at afgøre om en lydfil indeholder et up-call eller ej.

For at lave det omtalte klassificeringssystem skal lydfilerne først præprocesseres til data, som beskriver lydkilden til indholdet af lydfilen så godt som muligt. Som data bruger vi MFCC, som er blevet brugt ofte til talegenkendelse men også til genkendelse af hvallyde. For at få MFCC udtrækkes der et digital signal fra hver lydfil, hvor på der laves adskillige transformationer. I denne proces deles signalet op i overlappende tidsintervaller. Resultatet for en lydfil er en datavektor for hvert tidsinterval, der består af MFCC for det pågældende tidsinterval. Desuden gør den første del af processen det muligt at lave et spektrogram over lydfilen, som kan bruges til at visualisere hvilke frekvenser som lydfilen indeholder.

Klassificeringssystemet består af to modeller: En positiv model der repræsenterer datavektorerne for lydfiler, som indeholder et up-call, og en negativ model der repræsenterer datavektorerne for de lydfiler, som ikke indeholder et up-call. Systemet klassificerer en lydfil ved at udregne forholdet mellem, hvor sandsynligt det er at datavektorerne fra lydfilen er generet af den positive model, og hvor sandsynligt det er, at de er generet af den negative model. Resultatet sammenlignes med en tærskelværdi, og hvis forholdet er større end tærskelværdien klassificeres lydfilen som indeholdende et up-call.

Tre forskellige modeltyper sammenlignes, for at undersøge hvilken der fungerer bedst, når den bruges i vores klassificeringssystem. Den første modeltype benytter en GMM, og opdeler ikke lydfilen i tidsintervaller. Der er derfor kun en datavektor per lydfil. I den anden modeltype benyttes der flere GMM. Her deles lydfilerne op i tidsintervaller, og hvert tidsinterval betragtes som værende genereret af hver sin GMM. Den tredje modeltype bruger en HMM, hvor der til hver tilstand af den underliggende Markov proces er associeret en GMM.

EM-algoritmen bruges til at lære modellerne. Der bliver givet en generel beskrivelse af EM-algoritmen, og hvordan de to skridt i algoritmen udledes for GMM og HMM, hvor der især er lagt vægt på E-skridtet. Modellerne og EM-algoritmen for GMM og HMM er blevet implementeret, og specifikation omkring implementeringen er beskrevet.

Vi sammenligner derefter de tre modeltype ved at bruge dem i klassificeringssystemet. De sammenlignes ved at finde arealet under ROC kurven, præcision (precision) og genkaldelse (recall), samt nøjagtighed (accuracy) og $F_1$-mål. For alle mål får modeltypen med GMM, hvor lydfilens ikke opdeles i tidsintervaller, højst værdier, derefter kommer modeltypen, hvor der er en GMM for hvert tidsinterval, og til sidst modeltypen der bruger HMM. En forvirrings (confusion) matrice for hver modeltype konstrueres derefter for det bedste punkt på ROC kurven, og det viser sig, at alle tre modeltyper har et højt antal lydfiler, modellerne klassificerer til at indeholde et up-call, selvom filerne faktisk ikke indeholder et up-call. Da vi havde forventet at HMM ville få de højeste værdier, kigger vi nærmere på denne model. Dette gøres ved at kigge på spektrogrammet for nogle lydfiler som indeholder et up-call. Derefter finder vi for en positiv HMM den mest sandsynlige vej igennem tilstandsrummet for disse lydfiler, og det ses om tidsintervallerne, der dækker up-callene, er i nogle bestemt tilstande, og tidsintervaller udenom er i andre tilstande, eller om det er tilfældigt. Det viser sig, at HMMen, til en vis grad, er i stand til at detektere placeringen af et up-call i en lyd fil.
SprogEngelsk
Udgivelsesdato6 jun. 2013
Antal sider109
ID: 77314976