Machine Learning models for audio generation with embedded devices
Translated title
Maskinlæringsmodeller til lydgenerering med indlejrede systemer
Author
Tyedmers, Hannah Jensen
Term
4. Term
Education
Publication year
2023
Submitted on
2023-12-20
Pages
46
Abstract
This thesis investigates how generative machine learning models can be used for real-time audio synthesis on embedded devices, with a particular focus on enabling intuitive control of learned latent representations for music creation and performance. It outlines the potential of deep generative models (e.g., timbre transfer and latent-space sampling) and the practical challenges of balancing audio quality with computational constraints. The work reviews relevant differentiable generative networks for audio (including VAE and GAN approaches) and examines opportunities and limitations in embedded AI. Methodologically, it describes an iterative development process that includes building and training a DCGAN, experimenting with on-device inference on low-power platforms (including ESP‑32 and NVIDIA Jetson), and creating an interaction prototype that maps user gestures to latent parameters for real-time control. Evaluation is organized around user feedback on sound, control, and functionality, and the discussion addresses prototype usefulness, unconditional audio generation, and interaction intuitiveness. Specific quantitative findings are not included in the provided excerpt.
Denne afhandling undersøger, hvordan generative maskinlæringsmodeller kan anvendes til realtidssyntese af lyd på indlejrede enheder, med særligt fokus på at give intuitiv kontrol over modellernes latente repræsentationer i musikskabelse og performance. Afhandlingen introducerer mulighederne ved dybe generative modeller (fx timbre‑transfer og sampling fra latente rum) samt de praktiske udfordringer ved at balancere lydkvalitet og beregningskrav. Arbejdet gennemgår relevante differentierbare generative netværk til lyd (herunder VAE- og GAN‑tilgange) og behandler begrænsninger og muligheder i embedded AI. Metodisk beskrives en iterativ udviklingsproces, der omfatter opbygning og træning af en DCGAN, afprøvning af inferens på små, strømbesparende platforme (bl.a. ESP‑32 og NVIDIA Jetson), og udvikling af en interaktionsprototype, hvor brugerens bevægelser kortlægges til latente parametre for at styre lyd i realtid. Evalueringen er struktureret omkring brugerfeedback på lyd, kontrol og funktionalitet, og diskussionen adresserer prototype-nytte, ubetinget lydgenerering og interaktionens intuitivitet. Konkrete resultater og målinger fremgår ikke af det medfølgende uddrag.
[This apstract has been generated with the help of AI directly from the project full text]
Keywords
