Autoencoder techniques for survival analysis on renal cell carcinoma
Author
Sanz Ilundain, Iñigo
Term
4. term
Education
Publication year
2024
Submitted on
2024-06-07
Pages
14
Abstract
Overlevelsesanalyse hjælper læger og forskere med at undersøge, hvor lang tid der går, før hændelser som sygdomsprogression indtræffer. Men moderne medicinske data, især transkriptomiske data (genekspressionsniveauer), er meget højdimensionelle, hvilket gør standardmodeller svære at tilpasse og tolke. I dette arbejde komprimerer vi genekspressionsprofiler fra patienter behandlet med avelumab+axitinib (immunterapi) eller sunitinib (en tyrosinkinasehæmmer) til et lille antal latente, informative træk ved hjælp af autoencodere, en type neuralt netværk der lærer kompakte repræsentationer. Derefter bruger vi en Cox proportional hazards-model sammen med Breslows estimator til at estimere overlevelsesfunktioner og forudsige den enkelte patients progressionsfri overlevelse (PFS). Vi undersøger systematisk forskellige regulariseringsstraffe og deres kombinationer for at balancere præcis rekonstruktion med meningsfuld trækindlæring. Fordi gener interagerer gennem protein–protein-netværk, repræsenterer vi også data som en graf, hvor kanter koder interaktioner; denne grafbaserede repræsentation var mere informativ end at behandle data som en simpel tabel. For at gøre modellerne mere gennemskuelige kobler vi latente træk tilbage til individuelle gener ved at måle den gensidige information mellem de oprindelige gener og de lærte repræsentationer, hvilket viser hvilke gener der bidrager mest til hver latent variabel. Vores resultater viser, at denoising‑autoencodere er bedst, når præcis rekonstruktion er vigtigst, mens sparsomme autoencodere giver mere fortolkelige og biologisk meningsfulde træk; kombinationer af disse straffe kan give begge dele. De fortolkelige modeller pegede også på gener som LRP2 og ACE2 som stærkt forbundet med renalcellekarcinom. Samlet set viser studiet, at autoencodere er et nyttigt værktøj til overlevelsesanalyse med højdimensionelle biomedicinske data.
Survival analysis helps clinicians and researchers study the time until events such as disease progression occur. But modern medical data, especially transcriptomic data (gene expression levels), are extremely high‑dimensional, which makes standard models hard to fit and interpret. In this thesis, we compress the gene expression profiles of patients treated with avelumab+axitinib (immunotherapy) or sunitinib (a tyrosine kinase inhibitor) into a small number of latent, informative features using autoencoders, a type of neural network that learns compact representations. We then use a Cox proportional hazards model, together with Breslow’s estimator, to estimate survival functions and to predict each patient’s progression‑free survival (PFS). We systematically study different regularization penalties and their combinations to balance accurate reconstruction with meaningful feature learning. Because genes interact through protein–protein networks, we also represent the data as a graph in which edges encode interactions; this graph‑based representation was more informative than treating the data as a simple table. To address the “black box” concern, we link latent features back to individual genes by measuring mutual information between the original genes and the learned representations, indicating which genes contribute most to each latent variable. Our results show that denoising autoencoders are best when accurate reconstruction is the priority, while sparse autoencoders yield more interpretable, biologically meaningful features; combining these penalties can provide both. The interpretable models also pointed to genes such as LRP2 and ACE2 as strongly associated with renal cell carcinoma. Overall, our study demonstrates that autoencoders are a useful tool for high‑dimensional survival analysis in biomedicine.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
