Low Complexity Neural Networks for Speech Enhancement on Consumer Products - Low Latency and Full-Band Content
Author
Ascari, Giacomo
Term
4. Term
Education
Publication year
2025
Submitted on
2025-05-26
Pages
9
Abstract
I denne afhandling viser vi, at talesforbedring med lav forsinkelse ved hjælp af dybe neurale netværk kan lade sig gøre på almindelige forbrugerprodukter som højttalere, soundbars og bærbare højttalere. Disse enheder skal behandle fuldbåndslyd og har begrænsede beregningsressourcer, så løsningen skal være både effektiv og hurtig. Vores tilgang kombinerer et Deep Noise Suppression (DNS) netværk med lav kompleksitet—en type deep-learning-model, der fjerner baggrundsstøj—med en asymmetrisk STFT-iSTFT-vinduering, en signalbehandlingsmetode, der analyserer og gendanner lyd i korte tidsvinduer. Vi gør også brug af CASS-datasættet (Cinematic Audio Source Separation). Med denne kombination opnår vi realtidskørsel på flere platforme og en algoritmisk forsinkelse på 11 ms (den forsinkelse, selve algoritmen indfører). Modellerne blev udformet med vejledning fra objektive målinger og derefter valideret gennem lytteforsøg. Resultaterne er lovende for en demonstrator, men den oplevede lydkvalitet er endnu ikke tilstrækkelig til et kundeklar produkt. Alligevel peger fundene på et betydeligt potentiale og hjælper med at mindske afstanden mellem forskning og praktisk anvendelse i forbrugerelektronik.
This thesis shows that low-latency speech enhancement using deep neural networks is feasible on everyday consumer products such as loudspeakers, soundbars, and portable speakers. These devices must process full-band audio with limited computing resources, so the solution has to be both efficient and fast. Our approach combines a low-complexity Deep Noise Suppression (DNS) network—a type of deep-learning model that removes background noise—with an asymmetric short-time Fourier transform and inverse transform (STFT–iSTFT) windowing scheme, a signal-processing method that analyzes and reconstructs audio in short time frames. We also make use of the Cinematic Audio Source Separation (CASS) dataset. With this combination, we achieve real-time operation on multiple platforms and an algorithmic latency of 11 ms (the delay introduced by the algorithm itself). We designed the models using objective metrics to guide development and then validated them with listening tests. The results are promising for a demonstrator, but the perceived audio quality is not yet sufficient for a customer-ready product. Even so, the findings indicate strong potential and help close the gap between research prototypes and real-world deployment in consumer electronics.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Documents
