AAU Studenterprojekter er ikke tilgængelig fra 15. juni kl. 12.30 til 17. juni kl. 12.30 pga. planlagt systemarbejde. Projekterne kan ikke downloades i perioden.
AAU Studenterprojekter - besøg Aalborg Universitets studenterprojektportal
Et professionsbachelorprojekt fra Aalborg Universitet
Book cover


Automatisk analyse af talekvalitet og støjopfattelse i realistiske lydmiljøer

Oversat titel

Automatic analysis of speech quality and noise perception in realistic acoustic environments

Forfattere

; ; ; ;

Semester

2. semester

Udgivelsesår

2026

Resumé

Dette projekt undersøger, hvordan maskinlæring kan bruges til automatisk at forudsige menneskers oplevede talekvalitet (MOS) i realistiske lydmiljøer som kontorer og caféer. Med udgangspunkt i et samarbejde med GN Group adresserer arbejdet behovet for hurtigere og mere omkostningseffektiv evaluering end traditionelle lyttertests. Tre regressionsmodeller – Ridge Regression, Random Forest og Gradient Boosting – trænes og sammenlignes på NISQA Corpus, der rummer over 14.000 taleoptagelser med MOS og fire perceptuelle deldimensioner. Modellerne får som input spektrale og tidslige audiofeatures udtrukket direkte fra lydsignalet og evalueres mod en naiv baseline. Gradient Boosting opnår den laveste test-MAE på 0,811, og en feature-importance-analyse peger på variationsmål baseret på MFCC som de mest informative. Resultaterne viser, at rå audiofeatures rummer nok information til en grov, men meningsfuld, automatisk vurdering af talekvalitet, men at den nuværende feature-repræsentation ikke er tilstrækkelig til at erstatte faktiske lyttertests.

This project explores how machine learning can automatically predict human-perceived speech quality (MOS) in realistic sound environments such as offices and cafés. Motivated by a collaboration with GN Group, it targets a faster and more cost-effective alternative to traditional listening tests. Three regression models—Ridge Regression, Random Forest, and Gradient Boosting—are trained and compared on the NISQA Corpus, which contains over 14,000 speech recordings with MOS labels and four perceptual sub-dimensions. The models use spectral and temporal features extracted directly from raw audio and are evaluated against a naive baseline. Gradient Boosting achieves the lowest test MAE of 0.811, and feature-importance analysis highlights MFCC-based variation measures as the most informative. The findings indicate that raw audio features enable a coarse yet meaningful automatic assessment of perceived speech quality, while the current feature representation is not rich enough to replace real listening tests.

[Dette resumé er genereret med hjælp fra AI direkte fra projektet fuldtekst]

Andre projekter af forfatterne

Madsen, Christian Bøgelund:

Hanan, Abdul Wahid:

Hong, Wanjun: