AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Distant Speech Recognition

Translated title

Talegenkendelse på afstand

Author

Term

4. term

Publication year

2013

Submitted on

Pages

69

Abstract

Når folk taler langt fra en mikrofon, forringer efterklang (ekko) og baggrundsstøj nøjagtigheden af automatisk talegenkendelse. Dette projekt undersøger, om et mikrofonarray—flere mikrofoner, der arbejder sammen—kan dæmpe efterklang og støj og dermed reducere genkendelsesfejl. Vi gennemgår grundlæggende array-signalbehandling og den klassiske Generalised Sidelobe-Canceller (GSC) beamforming-algoritme, som kombinerer signaler fra flere mikrofoner for at fokusere på den ønskede taler og typisk indstilles ved at minimere middelkvadratfejlen (MSE). Vi udvider GSC på to måder: (1) ved at opdatere filtrene blokvist i stedet for prøve for prøve, og (2) ved at tilpasse dem med et kurtosekriterium, der forsøger at maksimere “spidsheden” i outputtet, fordi ren tale er mere super-gaussisk (højere kurtose) end efterklangsramt tale. Histogrammer af ren og efterklangsramt tale bekræfter denne forskel. For yderligere at forbedre behandlingen implementerer vi en simpel cosinus-moduleret filterbank og Zelinski-efterfiltrering, et multikanals støjreduktionstrin. Vi skitserer også grundlaget for talegenkendelse med skjulte Markov-modeller (HMM) og to udbredte tilpasningsmetoder: normalisering af vokaltraktlængde (VTLN) og maksimal sandsynlighed lineær regression (MLLR). Til evaluering sammenlignes vores beamforming-varianter med den velkendte delay-and-sum beamformer, både med og uden Zelinski-efterfiltrering. Testene bruger to datasæt med hver 610 fonemer: ét med syntetisk genereret efterklang og ét optaget fra en rigtig taler i et klasselokale og et auditorium. Genkendelsesfejl måles med Kaldi-værktøjet. I alle tilfælde klarer delay-and-sum beamformeren uden efterfiltrering sig bedre end den maksimum-kurtose GSC. Mulige årsager diskuteres til slut.

When people speak far from a microphone, echoes (reverberation) and background noise reduce the accuracy of automatic speech recognition. This project investigates whether using a microphone array—several microphones working together—can suppress reverberation and noise and thereby lower recognition error rates. We present the basics of array signal processing and the classical Generalised Sidelobe-Canceller (GSC) beamforming algorithm, which combines signals from multiple microphones to focus on the desired speaker and is typically tuned by minimizing mean squared error (MSE). We extend the GSC in two ways: (1) updating its filters block-wise rather than sample-by-sample, and (2) adapting them with a kurtosis criterion that seeks to maximize the “peakedness” of the output, because clean speech is more super-Gaussian (higher kurtosis) than reverberant speech. Histograms of clean and reverberant speech confirm this difference. To further enhance processing, we implement a simple cosine-modulated filter bank and Zelinski postfiltering, a multichannel noise-reduction step. We also outline the foundations of Hidden Markov Model (HMM) speech recognition and two common adaptation techniques: Vocal Tract Length Normalization (VTLN) and Maximum Likelihood Linear Regression (MLLR). For evaluation, we benchmark our beamforming variants against the well-known delay-and-sum beamformer, with and without Zelinski postfiltering. Tests use two datasets of 610 phonemes each: one with synthetically generated reverberation and one recorded from a real speaker in a classroom and an auditorium. Recognition error rates are measured with the Kaldi toolkit. Across all cases, the delay-and-sum beamformer without postfiltering performs better than the maximum-kurtosis GSC. Possible reasons for this outcome are discussed.

[This abstract was generated with the help of AI]