AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Deep Clustering for Metagenomic Binning

Translated title

Deep Clustering til Metagenomic Binning

Authors

; ;

Term

4. Term

Publication year

2022

Submitted on

Pages

117

Abstract

Metagenomic binning groups DNA fragments from mixed microbial samples into bins that represent individual genomes. Deep learning has been used only sparingly for this task. Most existing methods first convert raw DNA into hand-crafted input features, such as sequence composition and abundance across samples, and then perform representation learning and clustering in two separate steps. Recent work shows that models trained directly on raw DNA can perform well for gene prediction, and that joint deep clustering (learning representations and clusters at the same time) can outperform simple methods like k-means for images. Motivated by these findings, we explore joint, end-to-end unsupervised learning for metagenomic binning and test whether using unprocessed contigs (assembled DNA fragments) as input is beneficial. We propose two binners: the Deep Convolutional Metagenomic Binner (DCMB), which takes raw contigs, and the Deep Stacked Metagenomic Binner (DSMB), which uses composition and abundance as inputs. Both binners use KL divergence-based joint deep clustering to learn embeddings and assign bins simultaneously. We benchmark DCMB and DSMB on the CAMI Low dataset and compare them with established binners VAMB, MetaBat2, and SolidBin. Our results indicate that metagenomic data generally require preprocessing to obtain meaningful representations, and that joint end-to-end learning yields a small increase in the number of recovered bins.

Metagenomisk binning går ud på at gruppere DNA-fragmenter fra blandede mikrobielle prøver i bins, der repræsenterer enkelte genomer. Dyb læring er kun i begrænset omfang brugt til denne opgave. De fleste eksisterende metoder omdanner først råt DNA til håndlavede inputfunktioner, som f.eks. sekvenssammensætning og forekomst på tværs af prøver, og udfører derefter repræsentationslæring og klyngedannelse i to adskilte trin. Nyere arbejde viser, at modeller, der trænes direkte på råt DNA, kan klare sig godt til genforudsigelse, og at fælles dyb klyngedannelse (hvor man lærer repræsentationer og klynger samtidig) kan slå simple metoder som k-means for billeder. Med dette som motivation undersøger vi fælles, end-to-end usuperviseret læring til metagenomisk binning og afprøver, om brugen af uforarbejdede contigs (sammenstillede DNA-fragmenter) som input er en fordel. Vi foreslår to binners: Deep Convolutional Metagenomic Binner (DCMB), der tager rå contigs som input, og Deep Stacked Metagenomic Binner (DSMB), der bruger sammensætning og forekomst som input. Begge binners anvender KL-divergens-baseret fælles dyb klyngedannelse til samtidig at lære indlejringer og tildele bins. Vi benchmarker DCMB og DSMB på CAMI Low-datasættet og sammenligner med de udbredte binners VAMB, MetaBat2 og SolidBin. Resultaterne indikerer, at metagenomiske data generelt kræver forbehandling for at opnå meningsfulde repræsentationer, og at fælles end-to-end læring giver en lille forbedring i antallet af genskabte bins.

[This apstract has been rewritten with the help of AI based on the project's original abstract]