Single-Channel BLSTM Enhancement for Language Identification

Studenteropgave: Speciale (inkl. HD afgangsprojekt)

  • Peter Sibbern Frederiksen
4. semester, Matematik-teknologi, Kandidat (Kandidatuddannelse)
Dette projekt foreslår at anvende dybe neurale netværk (DNN)-baseret enkelt kanal taleforstærkning (SE) på sprog identificering. 2017 language recognition evaluation (LRE17) introducerede støjfyldt lyd fra videoer udover telefon samtalerne fra tidligere evalueringer. Derfor var der et behov for at adaptere modeller fra telefon samtaler til støjfyldt lyd fra video domænet, for at opnå optimal ydeevne. Adapteringen kræver viden om lyd domænet. I stedet foreslår vi et forbehandlings trin der renser den støjfyldte lyd med taleforstærkning. Vi brugte en BLSTM DNN model til at estimere en spektral maske. Det støjfyldte spectrogram bliver taleforstærket når det er multipliceret med masken, og bliver derefter transformeret tilbage til tids domænet ved at bruge den uændrede støjfyldte tales fase. Experimenterne viser en betydelig forbedring til sprog genkendelse af støjfyldt tale, for systemer med og uden domæne adaptering, samtidigt med at den bevare ydeevne i telefonlyds domænet. I det bedste adapterede nyeste flaskehals i-vector system er den relative forbedring 11.3 for støjfyldt tale.
SprogEngelsk
Udgivelsesdato7 jun. 2018
Antal sider54
ID: 280550788