Sound2Serum - Neural Sound Matching System for Serum 2

Author

Hansen, Kevin Thor

Term

4. Term

Education

Sound and Music Computing

Publication year

2026

Submitted on

2026-05-26

Abstract

This thesis introduces Sound2Serum, a multi-modal neural network for sound matching on the Serum 2 synthesizer. Given a target audio example, the system estimates the synthesizer settings that best recreate a similar sound, automating the early exploratory stage of sound design and giving producers a useful starting point for refinement. The system adapts the Sound2Synth architecture to Serum 2’s parameter space. It combines several audio representations, processes them with specialized neural components, and fuses them into a shared representation. From this, the model predicts 45 Serum parameters: 40 continuous (regression) and 5 categorical (classification). A dataset of 40,000 paired audio–parameter examples was generated with a custom Data Generation App, covering four sound categories: sustained bass, pad, lead, and pluck. Training ran on AAU’s CLAAUDIA computing cluster and completed three epochs before reaching the compute limit. Training and validation cross-entropy decreased steadily with no signs of overfitting. Evaluation used objective similarity measures (MFCCD and multi-scale spectral loss) and a MUSHRA listening test with 19 participants. Both indicate that the current outputs are still perceptually far from the targets: in 82% of trials, listeners rated the results below a 300 Hz low-pass anchor. The key finding is that, at this quality level, objective metrics and listener ratings agree on rank ordering. Whether this agreement holds at finer resolution, when outputs get closer to the targets, remains an open question that will require more thorough training to answer.

Denne afhandling præsenterer Sound2Serum, et multimodalt neuralt netværk til lydmatching på synthesizeren Serum 2. Givet et lydeksempel estimerer systemet de synth-parametre, der bedst kan genskabe en lignende lyd. Det automatiserer den tidlige, udforskende fase af lyddesign og giver producere et meningsfuldt udgangspunkt for videre finpudsning. Systemet tilpasser Sound2Synth-arkitekturen til Serum 2’s parameterområde. Det kombinerer flere repræsentationer af lyden, som behandles af specialiserede netværksdele og samles i en fælles repræsentation. Herfra forudsiger modellen 45 Serum-parametre: 40 kontinuerte (regression) og 5 kategoriske (klassifikation). Et datasæt med 40.000 par af lyd og tilhørende parametre blev genereret med en specialbygget Data Generation App og dækker fire lydkategorier: sustained bass, pad, lead og pluck. Træningen kørte på AAU’s CLAAUDIA-cluster og nåede tre gennemløb (epochs), inden beregningsgrænsen blev nået. Trænings- og validation cross-entropy faldt stabilt uden tegn på overfitting. Evalueringen omfattede objektive lighedsmål (MFCCD og multi-scale spectral loss) samt en MUSHRA-lyttetest med 19 deltagere. Begge viste, at de nuværende resultater stadig er perceptuelt langt fra målet: I 82% af forsøgene blev output bedømt lavere end et 300 Hz lavpas-anker. Hovedresultatet er, at på dette kvalitetsniveau er der enighed mellem objektive mål og lyttervurderinger om rangordningen. Om denne enighed også gælder i finere opløsning, når output kommer tættere på mållyden, er fortsat åbent og kræver en mere gennemført træning for at kunne afgøres.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Keywords

Machine Learning ; Serum 2 ; Synthesizer ; Neural Network ; Multi-Modal ; Sound2Synth ; Sound2Serum ; Sound Matching ; MUSHRA ; Perceptual Evaluation

Documents

Download PDF
View record in AAU Student Projects

An executive master's programme thesis from Aalborg University

Sound2Serum - Neural Sound Matching System for Serum 2