Self-supervised spectrogram reconstruction using MAE-ViT for anomaly detection in pump audio signals

Translated title

Selvovervåget spektrogramrekonstruktion ved hjælp af MAE-ViT til anomalidetektion i pumpe lydsignaler

Author

Drongesen, Rune

Term

4. semester

Education

Electronic Systems, Master

Publication year

2025

Submitted on

2025-06-03

Pages

Abstract

Denne afhandling undersøger anvendelsen af Self-Supervised Learning (SSL) til akustisk anomalidetektion i industrielle pumper, med specifikt fokus på at identificere pumper med kavitationssignaturer. Et Masked Autoencoder (MAE) framework, der anvender Vision Transformers (ViT), blev først præ-trænet på data fra normale driftslyddata for pumper. Denne SSL-fase havde til formål at skabe en model, der er i stand til at rekonstruere et generaliseret spektrogram af en sund driftspumpe. Dernæst blev et Convolutional Neural Network (CNN) finjusteret til den efterfølgende opgave med kavitationsdetektion. Dennee foreslået CNN model behandlede kortlægninger af den pixelvise absolutte forskel mellem inputspektrogrammet og MAE-ViT rekonstruktionen, kaldet fejlkort, for at identificere anomale signaturer. Ydeevnen af denne metode blev sammenlignet mod en Convolutional Autoencoder (CAE), som blev trænet fra bunden på det samme datasæt. Resultaterne viste MAE-ViT's store evne til at rekonstruere spektrogrammer ved at opnå et lavt valideringsrekonstruktionstab på 0.001 MSE. Den finjusterede CNN udviste bedre anomalidetekteringsfunktioner sammenlignet med CAE. Den identificerede med succes alle kavitationsanomalier i valideringssættet med en Recall på 1 og opnåede en AUC-score på 0.996. Dette overgik baseline CAE, som registrerede en Recall på 0.67 og en AUC-score på 0.990. Undersøgelsen konkluderer, at en SSL-forudtrænet MAE-ViT kombineret med en finjusteret CNN ved hjælp af fejlkort tilbyder en mere effektiv ramme til at detektere kavitationsanomalier fra akustiske pumpedata sammenlignet med en Convolutional Autoencoder.

This thesis investigates the application of Self-Supervised Learning (SSL) for acoustic anomaly detection in industrial pumps, specifically focusing on identifying pumps with cavitation signatures. A Masked Autoencoder (MAE) framework, utilizing Vision Transformers (ViT), was first pre-trained on data from normal operating pump sound data. This SSL stage aimed to create a model capable of reconstructing a generalized spectrogram of a healthy operating pump. Next for the downstream task of cavitation detection a Convolutional Neural Network (CNN) was fine-tuned. This proposed CNN processed mappings of the pixel-wise absolute difference between the input spectrogram and the MAE-ViT reconstruction, called error maps, to identify anomalous signatures. The performance of this methodology was benchmarked against a Convolutional Autoencoder (CAE), which was trained from scratch on the same dataset. Results showed the MAE-ViT’s great ability to reconstruct spectrograms, by achieving a low validation reconstruction loss 0.001 MSE. The fine-tuned CNN, exhibited better anomaly detection capabilities, compared to the CAE. It successfully identified all cavitation anomalies in the validation set, with a Recall of 1 and achieved an AUC score of 0.996. This surpassed the baseline CAE, which recorded a Recall of 0.67 and an AUC score of 0.990. The study concludes that a SSL pre-trained MAE-ViT, combined with a fine-tuned CNN using error maps, offers a more effective framework for detecting cavitation anomalies from acoustic pump data compared to a Convolutional Autoencoder.

Keywords

Maskine Læring ; Selvovervåget læring ; Databehandling ; Anomalidetektion

Documents

Download
View record in AAU Student Projects

A master's thesis from Aalborg University

Self-supervised spectrogram reconstruction using MAE-ViT for anomaly detection in pump audio signals