Fractional-Order Noise Estimation for Speech Enhancement in Acoustic Environments with 1/f Noise: A Grünwald-Letnikov Modification of MCRA
Author
Horvath Muñoz de Escalona, Stephan Alejandro
Term
4. Term
Education
Publication year
2026
Submitted on
2026-05-26
Pages
79
Abstract
Speech enhancement systems rely on accurate noise estimation. This thesis introduces GL-MCRA, a fractional-order version of the minima controlled recursive averaging (MCRA) noise estimator. Standard recursive averaging assumes that the influence of past samples fades exponentially, which does not match the power-law correlations found in common 1/f noise. GL-MCRA replaces the usual first-order update with a Grünwald-Letnikov power-law weighted sum of past, speech-presence-gated power measurements. The fractional order r (0.1 to 0.9) controls how fast older observations lose weight, enabling a memory profile better aligned with 1/f noise. On the NOIZEUS dataset, across seven noise conditions and four signal-to-noise ratio (SNR) levels, GL-MCRA with r = 0.9 improved segmental (frame-by-frame) SNR over standard MCRA in all conditions, with statistically significant gains of 0.23–0.48 dB (5.4–11.5%, p<0.001). Perceptual speech quality assessments were consistent with these objective results: a subjective Mean Opinion Score (MOS) listening test with 17 participants showed a benefit that depended on the noise condition. The main limitation of GL-MCRA is higher computational complexity compared with standard MCRA.
Støjreduktion i tale bygger på præcis estimering af baggrundsstøj. Denne afhandling præsenterer GL-MCRA, en fraktionel udgave af støjestimatoren minima controlled recursive averaging (MCRA). Almindelig rekursiv udjævning antager, at tidligere prøver får mindre betydning efter en eksponentiel lov, hvilket ikke passer til de potenslovskorrelationer, man ser i udbredt 1/f-støj. GL-MCRA erstatter den sædvanlige førsteordens opdatering med en Grünwald-Letnikov-vægtet sum med potenslov over tidligere, tale-tilstedeværelses-gatede effektmålinger. Den fraktionelle orden r (0,1 til 0,9) styrer, hvor hurtigt ældre observationer mister vægt, og giver en hukommelse, der bedre matcher 1/f-støj. På NOIZEUS-datasættet, på tværs af syv støjtyper og fire SNR-niveauer (signal-støj-forhold), forbedrede GL-MCRA med r = 0,9 den segmentvise (ramme-for-ramme) SNR i forhold til standard MCRA i alle betingelser, med statistisk signifikante gevinster på 0,23–0,48 dB (5,4–11,5 %, p<0,001). Perceptuelle vurderinger af talekvalitet stemte overens med de objektive resultater: en subjektiv MOS-lytningstest med 17 deltagere viste en fordel, der afhang af støjforholdet. Den primære begrænsning ved GL-MCRA er højere beregningsmæssig kompleksitet end standard MCRA.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
