AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Representation learning with autoencoders in drug-target interaction prediction

Authors

; ; ;

Term

4. term

Education

Publication year

2021

Submitted on

Pages

42

Abstract

To address the high cost and long timelines of drug discovery, this thesis investigates whether autoencoder-based representation learning can improve drug–target interaction (DTI) prediction, particularly under limited labeled data. We propose a framework with two pre-trained autoencoders—one for drug molecules and one for protein targets—that learn compact representations fed into a binding affinity prediction network. We evaluate three encoder/decoder configurations (CNN–CNN, CNN–DNN, and RNN–DNN) and compare them across multiple metrics with both prior and state-of-the-art methods, including DeepDTA, as well as with a simple in-house baseline that featurizes inputs and uses a basic neural network. On the KIBA and Davis datasets, our autoencoder variants generally underperform, although they achieve a higher AUPR on Davis; overall, the baseline model outperforms the autoencoder approaches. In a reduced-label setting, DeepDTA remains superior, yet our best variant (CNN–CNN) surpasses our one-hot–based baseline, particularly in MSE. These findings suggest that autoencoder-based representations may be useful when labeled data are scarce and show potential for binary classification, while state-of-the-art methods generally achieve stronger performance in our tests.

For at adressere de høje omkostninger og den lange tidsramme i lægemiddelopdagelse undersøger denne afhandling, om repræsentationslæring med autoencodere kan forbedre forudsigelsen af interaktioner mellem lægemiddelmolekyler og proteinmål (DTI), især når der er begrænset mængde mærkede data. Vi foreslår en ramme med to fortrænede autoencodere—én for molekyler og én for proteiner—som udtrækker kompakte repræsentationer, der efterfølgende fødes til et netværk til forudsigelse af bindingsaffinitet. Vi afprøver tre varianter for kodning/afkodning (CNN–CNN, CNN–DNN og RNN–DNN) og sammenligner dem på tværs af flere metrikker med både tidligere og state-of-the-art metoder, herunder DeepDTA, samt med en egen basismodel baseret på simple feature-vektorer og et grundlæggende neuralt netværk. På KIBA- og Davis-datasættene underperformer vores autoencoder-varianter generelt, men opnår en højere AUPR på Davis; basismodellen klarer sig samlet bedre end autoencoder-tilgangene. Under et scenarie med reduceret mængde mærkede data er DeepDTA stadig bedst, men vores bedste variant (CNN–CNN) overgår vores basismodel med one-hot-encodning, især i MSE. Resultaterne indikerer, at autoencoder-baserede repræsentationer kan være lovende, når mærkede data er knappe, og kan være nyttige til binær klassifikation, men at state-of-the-art metoder overordnet set opnår bedre præstation i vores eksperimenter.

[This apstract has been generated with the help of AI directly from the project full text]