Federated Learning for Mutational Signature Extraction in Healthcare
Authors
Sinding, Kevin Risgaard ; Rasmussen, Frederik
Term
4. term
Education
Publication year
2024
Submitted on
2024-06-10
Pages
13
Abstract
Cancer is a genetic disease in which different processes alter DNA and leave a distinctive, recognizable pattern in the genome—a mutational signature. These signatures help reveal how cancer begins and evolves and can guide more targeted treatments. We evaluate whether federated learning (FL)—training models across multiple sites without sharing raw data—can be used to extract mutational signatures. We use Non-negative Matrix Factorization (NMF), a mathematical method that breaks data into additive parts, and autoencoders (AE), neural networks that learn compact representations. Our framework is tested on both synthetic and real-world genomic datasets and compared to centralized approaches that pool all data in one place. The results show that FL achieves accuracy comparable to centralized methods in identifying mutational signatures, but the distributed process increases computation time. This suggests that FL is a viable option for privacy-preserving analysis, provided computational resources are managed carefully.
Kræft er en genetisk sygdom, hvor forskellige processer ændrer DNA og efterlader et særligt, genkendeligt mønster i genomet—en mutationssignatur. Disse signaturer kan afsløre, hvordan kræft opstår og udvikler sig, og kan hjælpe med mere målrettet behandling. Vi undersøger, om fødereret læring (FL)—træning af modeller på tværs af flere steder uden at dele rådata—kan bruges til at udtrække mutationssignaturer. Vi anvender Non-negative Matrix Factorization (NMF), en matematisk metode til at dekomponere data i additive dele, og autoencodere (AE), neurale netværk der lærer kompakte repræsentationer. Vores rammeværk evalueres på både syntetiske og virkelige genomiske datasæt og sammenlignes med centraliserede tilgange, hvor alle data samles ét sted. Resultaterne viser, at FL opnår en nøjagtighed på linje med centraliserede metoder i identifikation af mutationssignaturer, men at den distribuerede proces øger beregningstiden. Det peger på, at FL er et realistisk alternativ til analyser, der skal beskytte privatliv, forudsat at beregningsressourcer planlægges og styres omhyggeligt.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
