Representation learning with autoencoders in drug-target interaction prediction

Authors

Hald, Andreas Laugård ; Nielsen, Christian Galasz ; Dyachenko, Alexandr ; Tabak, Dominik

Term

4. term

Education

Software, Master

Publication year

2021

Submitted on

2021-06-18

Abstract

To address the high cost and long timelines of drug discovery, this thesis investigates whether autoencoder-based representation learning can improve drug–target interaction (DTI) prediction, particularly under limited labeled data. We propose a framework with two pre-trained autoencoders—one for drug molecules and one for protein targets—that learn compact representations fed into a binding affinity prediction network. We evaluate three encoder/decoder configurations (CNN–CNN, CNN–DNN, and RNN–DNN) and compare them across multiple metrics with both prior and state-of-the-art methods, including DeepDTA, as well as with a simple in-house baseline that featurizes inputs and uses a basic neural network. On the KIBA and Davis datasets, our autoencoder variants generally underperform, although they achieve a higher AUPR on Davis; overall, the baseline model outperforms the autoencoder approaches. In a reduced-label setting, DeepDTA remains superior, yet our best variant (CNN–CNN) surpasses our one-hot–based baseline, particularly in MSE. These findings suggest that autoencoder-based representations may be useful when labeled data are scarce and show potential for binary classification, while state-of-the-art methods generally achieve stronger performance in our tests.

For at adressere de høje omkostninger og den lange tidsramme i lægemiddelopdagelse undersøger denne afhandling, om repræsentationslæring med autoencodere kan forbedre forudsigelsen af interaktioner mellem lægemiddelmolekyler og proteinmål (DTI), især når der er begrænset mængde mærkede data. Vi foreslår en ramme med to fortrænede autoencodere—én for molekyler og én for proteiner—som udtrækker kompakte repræsentationer, der efterfølgende fødes til et netværk til forudsigelse af bindingsaffinitet. Vi afprøver tre varianter for kodning/afkodning (CNN–CNN, CNN–DNN og RNN–DNN) og sammenligner dem på tværs af flere metrikker med både tidligere og state-of-the-art metoder, herunder DeepDTA, samt med en egen basismodel baseret på simple feature-vektorer og et grundlæggende neuralt netværk. På KIBA- og Davis-datasættene underperformer vores autoencoder-varianter generelt, men opnår en højere AUPR på Davis; basismodellen klarer sig samlet bedre end autoencoder-tilgangene. Under et scenarie med reduceret mængde mærkede data er DeepDTA stadig bedst, men vores bedste variant (CNN–CNN) overgår vores basismodel med one-hot-encodning, især i MSE. Resultaterne indikerer, at autoencoder-baserede repræsentationer kan være lovende, når mærkede data er knappe, og kan være nyttige til binær klassifikation, men at state-of-the-art metoder overordnet set opnår bedre præstation i vores eksperimenter.

[This abstract has been generated with the help of AI directly from the project full text]

Keywords

Drug-Target Interaction (DTI) Prediction ; Deep Learning ; Autoencoders

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Representation learning with autoencoders in drug-target interaction prediction