Eye-Gaze Steered Beamforming for Hearing Aids
Author
Thomsen, Simone Birk Bols
Term
4. semester
Education
Publication year
2022
Submitted on
2022-06-03
Pages
120
Abstract
Hearing aids with multiple microphones can use beamforming—combining signals to focus on sounds from a chosen direction—to make speech clearer in noise. Many beamformers need to know where the talker is, and audio-only localization remains an unsolved problem when competing speakers are present. This thesis explores adding a second modality: the user’s eye gaze. The direction the user looks is used to indicate the intended talker and steer the beamformer. We first assess the potential benefits of gaze-steered beamforming under ideal conditions. We then propose two Bayesian beamforming systems that combine information using probabilities: (1) a system that forms a prior (initial belief) about the target direction from eye gaze and uses it to compute a posterior (updated belief); and (2) a system that estimates the posterior jointly from both the hearing-aid microphone signals and the eye-gaze signal. We compare these gaze-based methods with current audio-only approaches. The main finding is that, under certain conditions, eye-gaze guided beamformers can outperform audio-only methods in terms of estimated speech intelligibility and quality.
Høreapparater med flere mikrofoner kan bruge beamforming – at kombinere mikrofonsignaler for at fokusere på lyde fra en valgt retning – til at gøre tale tydeligere i støj. Mange beamformere kræver viden om, hvor taleren befinder sig, og at lokalisere måltaleren kun ud fra mikrofoner er fortsat et uløst problem i nærvær af konkurrerende talere. Denne afhandling undersøger at tilføje en ekstra modalitet: brugerens blikretning. Den retning, brugeren ser mod, bruges til at pege på den ønskede taler og styre beamformeren. Først vurderer vi de potentielle gevinster ved blikstyret beamforming under ideale forhold. Derefter foreslår vi to Bayesian beamformingsystemer, som kombinerer information ved hjælp af sandsynligheder: (1) et system, der bygger en prior (forudgående antagelse) om målretningen ud fra blikretning og bruger den til at beregne en posterior (opdateret antagelse); og (2) et system, der estimerer posterioren samlet ud fra både høreapparatets mikrofonsignaler og blik-signalet. Vi sammenligner disse blikbaserede metoder med metoder baseret udelukkende på lyd. Hovedkonklusionen er, at de foreslåede blikbaserede beamformere under visse betingelser kan overgå lyd-only metoder målt på estimeret taleforståelighed og kvalitet.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
