Self-supervised Keyword Spotting using Data2Vec Pretraining
Author
Bovbjerg, Holger Severin
Term
4. term
Education
Publication year
2022
Submitted on
2022-06-02
Pages
49
Abstract
Accurate deep-learning keyword spotting (KWS)—systems that detect specific words in audio—has enabled technologies such as voice assistants. However, these models typically require large labeled speech datasets, which limits where they can be deployed. Self-supervised learning aims to reduce this dependence by learning useful audio representations from unlabeled data. This thesis examines whether Data2Vec, a recently proposed general self-supervised framework, can improve KWS when only a small amount of labeled data is available. A transformer-based KWS system (a modern neural network architecture suited to sequence data) is implemented, and the effect of Data2Vec pretraining is evaluated on a reduced-label setup of the Google Speech Commands dataset. Models pretrained with Data2Vec performed much better than models trained without this pretraining. These results indicate that Data2Vec pretraining is an effective way to boost KWS performance in low-label settings.
I de senere år har præcise deep learning-baserede keyword spotting (KWS)-modeller—systemer der registrerer bestemte ord i lyd—muliggjort teknologier som stemmeassistenter. Mange af disse modeller kræver dog store mængder mærket tale for at fungere godt, hvilket begrænser deres anvendelse. Selvtilsynet læring (self-supervised learning) søger at mindske dette behov ved at udnytte uetiketterede data til at lære generelle lydrepræsentationer. Dette speciale undersøger, om Data2Vec, et nyere generelt selvtilsynet læringsframework, kan forbedre KWS, når kun en lille mængde mærkede data er tilgængelig. Der implementeres et transformer-baseret KWS-system (en moderne neuralt netværksarkitektur til sekvensdata), og effekten af Data2Vec-fortræning evalueres på en opsætning af Google Speech Commands-datasættet med reduceret mængde mærkede data. Modeller fortrænet med Data2Vec klarede sig meget bedre end modeller uden denne fortræning. Resultaterne peger på, at Data2Vec-fortræning er en effektiv måde at øge KWS-ydelsen, når adgangen til mærkede data er begrænset.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
