Automatisk analyse af talekvalitet og støjopfattelse i realistiske lydmiljøer

Oversat titel

Automatic analysis of speech quality and noise perception in realistic acoustic environments

Forfattere

Nielsen, Jack Lazzarotto ; Madsen, Christian Bøgelund ; Jacobsen, Kristina Dalsgaard ; Hanan, Abdul Wahid ; Hong, Wanjun

Semester

2. semester

Uddannelse

Arkitektur og Design, Bachelor

Udgivelsesår

2026

Resumé

Dette projekt undersøger, hvordan maskinlæring kan bruges til automatisk at forudsige menneskers oplevede talekvalitet (MOS) i realistiske lydmiljøer som kontorer og caféer. Med udgangspunkt i et samarbejde med GN Group adresserer arbejdet behovet for hurtigere og mere omkostningseffektiv evaluering end traditionelle lyttertests. Tre regressionsmodeller – Ridge Regression, Random Forest og Gradient Boosting – trænes og sammenlignes på NISQA Corpus, der rummer over 14.000 taleoptagelser med MOS og fire perceptuelle deldimensioner. Modellerne får som input spektrale og tidslige audiofeatures udtrukket direkte fra lydsignalet og evalueres mod en naiv baseline. Gradient Boosting opnår den laveste test-MAE på 0,811, og en feature-importance-analyse peger på variationsmål baseret på MFCC som de mest informative. Resultaterne viser, at rå audiofeatures rummer nok information til en grov, men meningsfuld, automatisk vurdering af talekvalitet, men at den nuværende feature-repræsentation ikke er tilstrækkelig til at erstatte faktiske lyttertests.

This project explores how machine learning can automatically predict human-perceived speech quality (MOS) in realistic sound environments such as offices and cafés. Motivated by a collaboration with GN Group, it targets a faster and more cost-effective alternative to traditional listening tests. Three regression models—Ridge Regression, Random Forest, and Gradient Boosting—are trained and compared on the NISQA Corpus, which contains over 14,000 speech recordings with MOS labels and four perceptual sub-dimensions. The models use spectral and temporal features extracted directly from raw audio and are evaluated against a naive baseline. Gradient Boosting achieves the lowest test MAE of 0.811, and feature-importance analysis highlights MFCC-based variation measures as the most informative. The findings indicate that raw audio features enable a coarse yet meaningful automatic assessment of perceived speech quality, while the current feature representation is not rich enough to replace real listening tests.

[Dette resumé er genereret med hjælp fra AI direkte fra projektet fuldtekst]

Dokumenter

Download PDF
Vis denne rapport i AAU Studenterprojekter

Andre projekter af forfatterne

Madsen, Christian Bøgelund:

P0 Project (2025)

Hanan, Abdul Wahid:

P0 Project (2025)

Hong, Wanjun:

P0 Project (2025)

Et professionsbachelorprojekt fra Aalborg Universitet

Automatisk analyse af talekvalitet og støjopfattelse i realistiske lydmiljøer