Spectral Speech Enhancement using Deep Neural Networks: - Design, Analysis \& Evaluation -
Authors
Jacobsen, Anders Post ; Kolbæk, Morten
Term
4. term
Education
Publication year
2015
Submitted on
2015-06-02
Pages
160
Abstract
Baggrundsstøj gør det svært at føre telefonsamtaler, bruge talegenkendelse og høreapparater. Denne afhandling undersøger taleforbedring – metoder til at gøre tale tydeligere i støj. Vi fokuserer på cocktailparty-problemet: at skille én taler fra mange andre lyde, især når signal-støj-forholdet (SNR) er lavt, dvs. når talen er svag i forhold til støjen. Vi implementerer i MATLAB et system, der bruger et dybt neuralt netværk (DNN) til at forudsige en maske i tid-frekvens-planet. En ideel binær maske markerer hvert lille tid-frekvensområde som enten tale (1) eller støj (0). Vi undersøger også en blød maske, der tildeler værdier mellem 0 og 1 og dermed dæmper støjen gradvist i stedet for at slå helt til eller fra. I simulationer forbedrede den DNN-baserede metode to almindelige, objektive mål: STOI (en forudsigelse af taleforståelighed) og PESQ (en forudsigelse af talekvalitet), sammenlignet med det støjfyldte input. Brug af en blød maske gav yderligere forbedringer i både STOI og PESQ i forhold til en binær maske. Projektet er foreslået og motiveret af Aalborg Universitet og Oticon A/S.
Background noise makes phone calls, speech recognition, and hearing aids harder to use. This thesis studies speech enhancement—methods that make speech clearer in noisy conditions. We focus on the cocktail party problem: isolating one speaker from many sounds, especially when the signal-to-noise ratio (SNR) is low, meaning the speech is faint compared to the noise. We implemented a system in MATLAB that uses a deep neural network (DNN) to estimate a mask in the time–frequency domain. An ideal binary mask marks each small time–frequency region as either speech (1) or noise (0). We also examine a soft mask that assigns values between 0 and 1, gradually suppressing noise instead of switching fully on or off. In simulations, the DNN-based method improved two common objective measures: STOI (an intelligibility predictor) and PESQ (a speech quality predictor), compared with the noisy input. Using a soft mask provided additional gains in both STOI and PESQ relative to a binary mask. The project was suggested and motivated by Aalborg University and Oticon A/S.
[This abstract was generated with the help of AI]
Keywords
Documents
