Information and Kurtosis Approaches Applied to Adaptive Blind Speech Dereverberation
Authors
Lauridsen, Mads ; Pedersen, Niels Lovmand
Term
10. term
Education
Publication year
2009
Pages
142
Abstract
When speech reflects off walls and ceilings, it creates reverberation that makes understanding difficult, especially for people with hearing loss. Blind speech dereverberation aims to remove these echoes without prior knowledge of the room acoustics or the original clean speech. This project analyzes three approaches: one based on higher-order statistics (HOS) and two based on information theory (maximum and minimum entropy). To make the problem tractable, we assume the clean speech samples are independent and identically distributed (iid) and non-Gaussian, while the recorded room output behaves like Gaussian samples that are not iid. The HOS method maximizes the fourth-order cumulant, known as kurtosis, because Gaussian signals have zero higher-order cumulants; increasing kurtosis pushes the output away from Gaussian behavior. The information-theoretic methods adjust the signal’s entropy, a measure of randomness. The maximum-entropy method applies a nonlinear transformation to increase entropy and reduce statistical dependence between samples. The minimum-entropy method reduces the entropy of the room output, since Gaussian signals have the highest entropy for a given variance. We evaluate all three methods by their ability to reduce early and late reflections, their convergence, their performance in a real-life application, and their computational complexity. Based on our tests, we propose adjustments that improve performance across all criteria for all methods, and we outline a new information-theoretic algorithm for future work. Overall, all three approaches significantly reduce reverberation, with the information-theoretic methods appearing to perform best.
Når tale reflekteres af vægge og loft, opstår der efterklang, som gør det svært at forstå, især for mennesker med høretab. Blind dereverberation af tale handler om at fjerne denne efterklang uden på forhånd at kende rummets akustik eller den oprindelige, rene tale. I projektet analyserer vi tre tilgange: én baseret på statistik af højere orden (HOS) og to baseret på informationsteori (maksimal og minimal entropi). For at gøre problemet håndterbart antager vi, at de rene taleprøver er uafhængige og identisk fordelte (iid) og ikke-Gaussiske, mens det optagede rumoutput opfører sig som Gaussiske prøver, der ikke er iid. HOS-metoden maksimerer den fjerdeordens kumulant, kendt som kurtosis, fordi Gaussiske signaler har højereordens kumulanter lig med nul; ved at øge kurtosis gøres outputtet så lidt Gaussisk som muligt. De informationsteoretiske metoder ændrer signalets entropi, som er et mål for tilfældighed. Maksimal-entropi-metoden bruger en ikke-lineær transformation til at øge entropien og reducere statistisk afhængighed mellem prøverne. Minimal-entropi-metoden mindsker entropien af rumoutputtet, da Gaussiske signaler har maksimal entropi for en given varians. Vi vurderer alle tre metoder ud fra deres evne til at dæmpe tidlige og sene refleksioner, deres konvergens, deres ydelse i en virkelighedsnær anvendelse og deres beregningsmæssige kompleksitet. Baseret på vores tests foreslår vi justeringer, der forbedrer resultaterne på alle punkter for alle metoder, og vi skitserer en ny algoritme baseret på informationsteori til fremtidigt arbejde. Samlet set reducerer alle tre tilgange efterklang markant, og de informationsteoretiske metoder ser ud til at være de bedste.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
