Timbre modification using deep learning
Author
Paterna, Mattia
Term
4. Term
Education
Publication year
2017
Pages
57
Abstract
Dette speciale undersøger, hvordan man kan ændre klangfarven—den tonekarakter, der lader os skelne mellem instrumenter—ved hjælp af dybdelæring. Arbejdet bygger et sæt konvolutionelle autoenkodere, en type neuralt netværk der lærer at komprimere et lydsignal og genskabe det. Først bruges en lille, simpel arkitektur til at genskabe en række klavertoner og derigennem vælge effektive indstillinger (hyperparametre) for de centrale byggeklodser. Dernæst trænes og sammenlignes flere netværksarkitekturer i en opgave med klangfarvetransformation: at omdanne én lyd til en mål-lyd. Her undersøges to blæseinstrumenter, fløjte og klarinet. Under træning og forudsigelse repræsenteres lydene som log-magnitudspektre, der beskriver, hvor meget energi lyden har ved forskellige frekvenser. Fordi denne repræsentation mangler faseinformation, anvendes Griffin–Lim-algoritmen til at gendanne fase og dermed syntetisere lyd ud fra autoenkoderens output. Resultaterne viser, at konvolutionelle autoenkodere kan udføre klangfarvetransformation rimeligt godt, især når teknikker som residual læring og dilaterede konvolutioner bruges. Derudover hjælper begrænsninger som sparsitet og regularisering med at finde en mere informativ latent repræsentation af spektre.
This thesis explores how to change timbre—the tone color that lets us tell instruments apart—using deep learning. It builds a set of convolutional autoencoders, a type of neural network that learns to compress an audio signal and reconstruct it. First, a small, shallow architecture is trained to faithfully rebuild a series of piano notes, which helps select effective settings (hyperparameters) for the core building blocks. Next, several architectures are trained and compared for a timbre transformation task: turning an input sound into a target sound. The study focuses on two wind instruments, flute and clarinet. For learning and prediction, the signals are represented as log-magnitude spectra, which describe how much energy the sound has at different frequencies. Because this representation omits phase, the Griffin–Lim algorithm is used to recover phase information and synthesize audio from the autoencoder’s output. The results show that convolutional autoencoders can perform timbre transformation reasonably well, especially when techniques such as residual learning and dilated convolutions are used. In addition, applying constraints such as sparsity and regularization helps the model learn a more useful latent representation of the spectra.
[This abstract was generated with the help of AI]
Keywords
Documents
