Self-supervised spectrogram reconstruction using MAE-ViT for anomaly detection in pump audio signals
Translated title
Selvovervåget spektrogramrekonstruktion ved hjælp af MAE-ViT til anomalidetektion i pumpe lydsignaler
Author
Drongesen, Rune
Term
4. semester
Education
Publication year
2025
Submitted on
2025-06-03
Pages
59
Abstract
This thesis explores how self-supervised learning (SSL) can be used to detect unusual sounds in industrial pumps, focusing on identifying cavitation signatures. A Masked Autoencoder (MAE) with Vision Transformers (ViT) was first pre-trained on recordings from pumps operating normally. This stage aimed to learn to reconstruct a generalized spectrogram of a healthy pump (a spectrogram is a visual representation of sound frequencies over time). For the downstream task of cavitation detection, a Convolutional Neural Network (CNN) was then fine-tuned. The CNN processed "error maps"—pixel-wise absolute differences between the input spectrogram and the MAE‑ViT reconstruction—which highlight anomalous patterns. The approach was benchmarked against a Convolutional Autoencoder (CAE) trained from scratch on the same dataset. The MAE‑ViT showed strong reconstruction ability, achieving a low validation error (0.001 MSE). The fine-tuned CNN detected anomalies better than the CAE: it identified all cavitation cases in the validation set (Recall 1) and achieved an AUC of 0.996. By comparison, the baseline CAE reached Recall 0.67 and AUC 0.990. Overall, the study concludes that an SSL‑pre‑trained MAE‑ViT combined with a CNN using error maps provides a more effective framework for detecting cavitation from acoustic pump data than a Convolutional Autoencoder.
Dette speciale undersøger, hvordan selv-superviseret læring (SSL) kan bruges til at opdage unormale lyde i industripumper, med fokus på at genkende kavitation (en særlig lydsignatur). Først blev et maskeret autoencoder‑rammeværk (MAE) med Vision Transformers (ViT) fortrænet på lyd fra pumper i normal drift. Målet med denne fase var at lære at genskabe et generelt spektrogram af en sund pumpe (et spektrogram er et billedlignende overblik over lydens frekvenser over tid). Til den efterfølgende opgave med at opdage kavitation blev et konvolutionelt neuralt netværk (CNN) finjusteret. Dette CNN modtog såkaldte "error maps"—kort over den pixelvise absolutte forskel mellem indgangsspektrogrammet og MAE‑ViT‑rekonstruktionen—som fremhæver afvigende mønstre. Metoden blev sammenlignet med en konvolutionel autoencoder (CAE), der blev trænet fra bunden på samme datasæt. MAE‑ViT viste stærk evne til at genskabe spektrogrammer og opnåede en lav valideringsfejl (0,001 MSE). Det finjusterede CNN havde bedre evne til at opdage anomalier end CAE: Det fandt alle kavitationstilfælde i valideringssættet (Recall 1) og opnåede en AUC på 0,996. Baseline‑CAE’en opnåede til sammenligning Recall 0,67 og AUC 0,990. Samlet set viser studiet, at en SSL‑fortrænet MAE‑ViT kombineret med et CNN, der bruger error maps, er en mere effektiv ramme til at opdage kavitation i akustiske pumpedata end en konvolutionel autoencoder.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
