Among us - Detecting spoofed audio samples in a multi-party conversation -
Author
Anandhamurugan, Vigneshwar
Term
4. semester
Education
Publication year
2025
Submitted on
2025-06-03
Pages
78
Abstract
As voice technologies become more common, reliably spotting fake or manipulated audio (spoofing) is increasingly important, especially when several people speak at once. This thesis introduces a straightforward pipeline that combines speech separation (untangling overlapping voices) with spoof detection (identifying synthetic or replayed speech). We use a state-of-the-art spoof detection model and evaluate with equal error rate (EER), where lower is better. On the established ASVspoof 2019 dataset, the model achieves a 2% EER. When the same approach is applied to a custom mixed-audio dataset that simulates overlapping speech, the EER rises to 24% after speech separation. This drop in performance occurs because separation alters the subtle audio artifacts the detector relies on to distinguish real from fake speech. Training the system directly on the custom dataset results in a 22% EER, indicating that domain adaptation—training on data that match the target conditions—is important for spoof detection in complex acoustic settings. Overall, the work shows that handling overlapped speech and the side effects of separation is crucial for robust spoof detection, and it provides a foundation for future research in more realistic, real-world scenarios.
Efterhånden som stemmeteknologier bliver mere udbredte, bliver det vigtigt at kunne afsløre forfalsket lyd (såkaldt spoofing), især når flere talere taler samtidig. Denne afhandling præsenterer en simpel behandlingskæde, der kombinerer taleseparation (at adskille overlappende stemmer) med spoof-detektion (at genkende syntetisk eller afspillet tale). Vi bruger en state-of-the-art (SOTA) spoof-detekteringsmodel og måler nøjagtighed med equal error rate (EER), hvor lavere er bedre. På det etablerede ASVspoof 2019-datasæt opnår modellen en EER på 2%. Når den samme tilgang anvendes på et specialfremstillet datasæt med blandet lyd, der simulerer overlappet tale, stiger EER til 24% efter taleseparation. Det skyldes, at separationsprocessen ændrer de fine lydartefakter, som detektoren normalt bruger til at skelne ægte fra falsk tale. Når systemet trænes direkte på det specialfremstillede datasæt, opnås en EER på 22%, hvilket peger på, at domæne-tilpasning—at træne på data, der ligner de målte forhold—er vigtig for spoof-detektion i komplekse akustiske miljøer. Samlet set viser arbejdet, at håndtering af overlappet tale og effekterne af taleseparation er afgørende for robust spoof-detektion, og det lægger et grundlag for videre forskning i mere virkelighedsnære scenarier.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
