Deep Learning Based Adversarial Examples Detection for Speech Recognition: A Comparative Study of Speech Processing Methods
Authors
Petersen, Amalie Vistoft ; Lassen, Jacob Theilgaard ; Schiøler, Sebastian Biegel
Term
4. term
Education
Publication year
2019
Submitted on
2019-06-06
Abstract
Dette projekt undersøger, om neurale netværk kan opdage såkaldte adversarial eksempler—bevidst manipulerede lydsignaler—i talegenkendelse. Vi afprøver fem almindelige metoder til at udtrække egenskaber fra lyd (STFT, MFCC, IMFCC, GFCC og IGFCC), dvs. forskellige måder at omsætte tale til talbaserede repræsentationer, som en model kan bruge. Vi gennemgår relevant teori inden for deep learning, adversarial eksempler og talebehandling og beskriver datasæt med både white-box og black-box angreb (hvor angriberen hhv. har fuld indsigt i modellen eller intet kendskab). Vi implementerer et konvolutionsnetværk (CNN) og evaluerer både ydelse og robusthed på tværs af de fem egenskabsrepræsentationer. Analysen omfatter også, hvordan resultaterne påvirkes, når data kun indeholder tale eller kun ikke-tale, samt effekten af at tilføje forskellige typer og mængder af støj. Resultaterne viser, at CNN’et kan opdage adversarial eksempler til talegenkendelse, at IMFCC og IGFCC generelt giver de højeste nøjagtigheder, og at modellen bliver mere støjrobust, når dens træningssæt rummer et bredere udvalg af støjtyper.
This project examines whether neural networks can detect adversarial examples—deliberately perturbed audio—in speech recognition. We test five common audio feature extraction methods (STFT, MFCC, IMFCC, GFCC, and IGFCC), which are different ways of turning sound into numerical representations a model can process. We review relevant theory in deep learning, adversarial examples, and speech processing, and we describe available datasets with white-box and black-box attacks (where the attacker either knows the model in detail or has no access to it). We implement a convolutional neural network (CNN) and evaluate its performance and robustness across the five feature representations. We also analyze how results change when the data contains only speech or only non-speech, and how adding different types and amounts of noise affects performance. The findings show that the CNN can detect adversarial examples for speech recognition, that IMFCC and IGFCC generally achieve the highest accuracies, and that the model is more robust to noise when its training set includes a wider range of noise types.
[This abstract was generated with the help of AI]
Documents
