Glimpse Proportion Maximization for Speech Intelligibility Enhancement
Author
Bejarano, Valentina Correa
Term
4. semester
Education
Publication year
2025
Submitted on
2025-08-25
Pages
45
Abstract
Denne afhandling undersøger at bruge Glimpse Proportion (GP) som optimeringsmål for Near-End Listening Enhancement (NELE), som har til formål at gøre tale lettere at forstå for den, der lytter tæt på enheden. GP måler den andel af tid‑frekvensområder, hvor talen står over støjen og kan høres. Vi introducerer GlimpseP, en differentierbar formulering af GP, der muliggør gradientbaseret optimering, samtidig med at den samlede energi bevares. Metoden anvender en frekvensafhængig, tidsinvariant spektral vægtning (et fast filter) og evalueres på DANTALE II, AEMST og TIMIT under både stationær støj og en konkurrerende taler. På tværs af betingelser ses gennemgående forbedringer i objektive mål for taleforståelighed, med størst fordel i fluktuerende støj, hvor glimt af tale er mest betydningsfulde. Sammenlignet med etablerede baselines som FractileASII er GlimpseP på niveau eller bedre og robust på tværs af datasæt og støjtyper. Resultaterne peger på, at GP er et perceptuelt forankret optimeringsmål for NELE.
This thesis explores using Glimpse Proportion (GP) as the optimization target for Near-End Listening Enhancement (NELE), which aims to make speech easier to understand for someone listening near the device. GP measures the share of time–frequency regions where speech stands above the noise and can be heard. We introduce GlimpseP, a differentiable formulation of GP that supports gradient-based optimization while keeping overall energy unchanged. The method applies a frequency-dependent, time-invariant spectral weighting (a fixed filter) and is evaluated on DANTALE II, AEMST, and TIMIT in both stationary noise and a competing-talker condition. Across conditions, objective intelligibility metrics improve consistently, with the largest benefits in fluctuating noise where glimpsing cues are most relevant. Compared with established baselines such as FractileASII, GlimpseP performs on par or better and remains robust across datasets and noise types. These findings support GP as a perceptually grounded optimization target for NELE.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
