Talegenkendelse på afstand

Studenteropgave: Kandidatspeciale og HD afgangsprojekt

  • Nicolai Bæk Thomsen
I dette projekt undersøges en måde, hvor flere mikrofoner i et array kan bruges til at undertrykke efterklang og støj så ledes at automatisk talegendekelsessystemer opnår bedre resultater i tilfælde, hvor afstanden mellem taler og mikrofon er relativ stor. Den fundamentale array signalbehandlingsteori er kort beskrevet sammen med udledning af den klassiske Generalised Sidelobe-Canceller array algoritme, som anvender MSE som optimeringskriterie. Denne algoritme er udvidet således, at det adaptive filter estimeres i forhold til at maksimere kurtosis af outputtet. Ydermere opdateres filteret kun blok vist. Histogrammer af ren tale og tale med efterklang er plottet, hvilket bekræfter at ren tale er mere super-gaussisk og har en højere kurtosis værdi end tale med efterklang. En simpel filter bank og Zelinski postfiltrering implementeres og verficeres gennem test. Den fundamentale teori bag HMM talegenkendelse præsenteres sammen med to metoder, hvor taleren og de akustiske omgivelser kan tilpasses til den eksisterende model. Algoritmen testes mod den velkendte delay-sum beamformer med og uden postfiltrering. Der anvendes to typer datasæt, hver bestående af 610 phonemer. En type datasæt, hvor efterklangen er genereret syntetisk vha. MATLAB og en type, hvor data er optaget i et klasseværelse og et auditorie. Som talegenkendelsessystem anvendes Kaldi. Resultaterne viser, at delay-sum beamformer uden postfiltrering opnår bedre resultater end maksimum kurtosis Generalised Sidelobe-Canceller i alle tilfælde. Årsagerne hertil diskuteres til sidst.
SprogEngelsk
Udgivelsesdato6 jun. 2013
Antal sider69
ID: 77272921