AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et kandidatspeciale fra Aalborg Universitet
Book cover


Two-Channel Speech Enhancement and Implementation Considerations: Noise Reduction and Speech Quality

Forfattere

; ;

Semester

10. semester

Udgivelsesår

2007

Antal sider

166

Abstract

Hørenedsættelse er udbredt, og mange har et perceptuelt høretab, som ikke kan løses ved blot at skrue op for lyden. Det kræver algoritmer, der gør tale mere tydelig. Denne afhandling undersøger tale-forbedring til høreapparater med én eller to mikrofoner, med fokus på støjreduktion og forbedret talekvalitet. For at vurdere resultaterne gennemgår vi målemetoder og bruger signal-til-støj-forhold (SNR) til at kvantificere støjreduktion og vægtet spektralhældningsmål (WSSM) til at vurdere taleforvrængning. Vi afprøver to enkeltkanals metoder: spektral subtraktion (hvor et estimat af støjspektret trækkes fra) og en signal-under-rums tilgang. Den sidste viser sig ikke konkurrencedygtig. Når metoden udvides til flere kanaler, formuleres et GSVD-baseret multi-kanal Wiener-filter (GSVD = generaliseret singularværdidekomposition). Det bygger på langsigtede statistiske estimater og er mere robust over for forskellige støjtyper end enkeltkanals metoder samt fast og adaptiv stråleformning, men kræver en pålidelig taleaktivitetsdetektor (VAD) til at afgøre, hvornår der tales. Da god støjreduktion ofte afhænger af korrekt støjestimering, undersøger vi minimum-statistik-sporing til spektral subtraktion og en log-energi-baseret VAD til alle metoder. Begge virker for additiv hvid og pink støj, men fejler i babble-støj (mange talere på én gang). Simulationer i rum med efterklang viser begrænset støjreduktion, men mindre taleforvrængning. En kombineret dereverberering (reduktion af rumklang) og støjreduktion giver ingen væsentlig forbedring. Til sidst analyseres kompleksiteten af det multi-kanale Wiener-filter, og der laves en rekursiv, GSVD-baseret implementering i 32-bit flydende komma, som kører i realtid på en Pentium-baseret arbejdsstation med acceptabel ydelsesforringelse.

Hearing impairment is widespread, and many people have perceptual hearing loss that cannot be fixed by simply making sounds louder. It calls for algorithms that make speech clearer. This thesis studies speech enhancement for hearing aids with one or two microphones, focusing on noise reduction and improved speech quality. To evaluate performance, we review assessment methods and use signal-to-noise ratio (SNR) to quantify noise reduction and weighted spectral slope measure (WSSM) to assess speech distortion. We test two single-channel techniques: spectral subtraction (subtracting an estimate of the noise spectrum) and a signal subspace approach. The latter is not competitive. Extending to multiple channels, we formulate a GSVD-based multi-channel Wiener filter (GSVD = generalized singular value decomposition). It relies on long-term statistical estimates and is more robust to different noise types than single-channel methods and than fixed or adaptive beamforming, but it depends on a reliable voice activity detector (VAD) to know when speech is present. Because effective noise reduction often hinges on accurate noise estimates, we investigate minimum-statistics tracking for spectral subtraction and a log-energy-based VAD for all methods. Both are suitable for additive white and pink noise, but fail in babble noise (many voices at once). Simulations in reverberant rooms show little noise reduction but lower speech distortion. A combined dereverberation (reducing room echo) and noise-reduction method yields no significant improvement. Finally, we analyze the complexity of the multi-channel Wiener filter and build a recursive GSVD-based implementation in 32-bit floating point that runs in real time on a Pentium-based workstation, with acceptable performance trade-offs.

[Dette resumé er genereret ved hjælp af AI]