Recognizing North Atlantic right whale up-calls using Gaussian Mixture Models and Hidden Markov Models
Authors
Larsen, Stine Back ; Nielsen, Morten Albeck
Term
4. term
Education
Publication year
2013
Submitted on
2013-06-06
Pages
109
Abstract
Moderne samfund er afhængige af fragtskibe, men skibstrafik kan skade havets dyreliv. Den nordatlantiske rethval er truet, især af kollisioner med skibe. Rethvaler udsender ofte et karakteristisk kald (et “up-call”), som kan bruges til at opdage, når en hval er i området. Cornell Universitys Bioacoustic Research Program har opsat hydrofoner, der optager havlyde, og optagelserne er mærket efter, om de indeholder et up-call eller ej. Denne afhandling udvikler et system, der automatisk afgør, om en lydoptagelse indeholder et up-call. Først forbehandles lyden: den digitale lyd deles i korte, overlappende tidsvinduer, og for hvert vindue beregner vi mel-frekvens cepstrale koefficienter (MFCC), som sammenfatter optagelsens frekvensindhold. Disse data kan også bruges til at danne et spektrogram, som visualiserer lydens frekvenser over tid. Klassifikatoren bygger to statistiske modeller: en positiv model for optagelser med up-call og en negativ model for optagelser uden. For hver optagelse beregnes, hvor sandsynlige dens egenskaber er under de to modeller; forholdstallet sammenlignes med en tærskel, og hvis det er højt nok, klassificeres optagelsen som indeholdende et up-call. Vi afprøver tre modeltyper: (1) en enkelt gaussisk blandingsmodel (GMM) pr. optagelse uden tidsopdeling, så der kun er én samlet feature-vektor pr. fil; (2) flere GMM’er, hvor hver ramme (vindue) modelleres separat; og (3) en skjult Markov-model (HMM), hvor hver tilstand har en tilknyttet GMM for at fange tidslige mønstre. Modellerne trænes med EM-algoritmen (Expectation–Maximization); afhandlingen giver en generel gennemgang og udleder trinene for GMM og HMM, med særlig vægt på E-trinnet. Alle modeller og træningsprocedurer er implementeret. Vi evaluerer med standardmål som arealet under ROC-kurven (AUC), præcision, recall, nøjagtighed og F1. På tværs af alle mål klarer den simple GMM uden tidsopdeling sig bedst; rammevise GMM’er bliver nummer to, mens HMM’en præsterer lavest. Ved de tærskler, der maksimerer ydelsen på ROC-kurven, giver alle tre mange falske positiver (optagelser markeres som up-calls uden at indeholde dem). Da vi havde forventet, at HMM’en ville klare sig bedst, undersøgte vi den nærmere: Ved at sammenholde spektrogrammer med den mest sandsynlige tilstandssekvens for en positiv HMM fandt vi, at HMM’en i nogen grad kan lokalisere, hvor i optagelsen et up-call ligger, selvom den samlede detektionsydelse var lavere. Overordnet set klarede den enkleste model sig bedst på disse data, men alle tilgange kæmper med falske alarmer; sekvensmodeller kan dog stadig være nyttige til at pege på kaldets placering.
Modern society depends on cargo shipping, but ship traffic can harm marine wildlife. The North Atlantic right whale is endangered, with ship strikes posing a major threat. Right whales often produce a distinctive “up-call,” which can signal their presence. Cornell University’s Bioacoustic Research Program deploys hydrophones that record ocean sounds, and recordings are labeled by whether they contain an up-call. This thesis builds an automatic system to decide if a recording contains an up-call. We first preprocess the audio: the digital signal is split into short, overlapping time windows, and for each we compute mel-frequency cepstral coefficients (MFCCs), which summarize the sound’s frequency content. These features can also be visualized as a spectrogram showing frequencies over time. The classifier uses two statistical models: a positive model for recordings with up-calls and a negative model for recordings without. For each recording we compare how likely its features are under each model; if the likelihood ratio exceeds a threshold, the recording is classified as containing an up-call. We test three model families: (1) a single Gaussian Mixture Model (GMM) per recording without time framing, yielding one summary feature vector per file; (2) multiple GMMs that model each short frame separately; and (3) a Hidden Markov Model (HMM) whose states each have a GMM to capture temporal patterns. Models are trained with the Expectation–Maximization (EM) algorithm; the thesis outlines EM and derives its steps for GMMs and HMMs, with emphasis on the E-step. All models and training procedures are implemented. We evaluate using standard measures including area under the ROC curve (AUC), precision, recall, accuracy, and F1. Across all measures, the simple GMM without framing performs best; the frame-wise GMM comes second, and the HMM performs worst. At the thresholds that optimize performance on the ROC curve, all three produce many false positives (recordings flagged as up-calls when none are present). Because we expected the HMM to do best, we examined it further: by comparing spectrograms with the most likely state sequence for a positive HMM, we found that the HMM can, to some extent, locate where an up-call occurs within a recording, even if its overall detection score was lower. Overall, the simplest model performed best on this dataset, but all approaches struggled with false alarms; sequence models may still help indicate call location.
[This abstract was generated with the help of AI]
Keywords
Documents
