Improving Neural Networks for Predicting Sepsis from Imbalanced, Multivariate Time Series Data with High Missing Rates
Authors
Simonsen, Martin ; Svendsen, Mathias Højer ; Nielsen, Simon Dam
Term
4. term
Education
Publication year
2021
Submitted on
2021-06-28
Pages
89
Abstract
Sepsis er en alvorlig komplikation til infektion, hvor hurtig identifikation kan redde liv. I dette projekt udvikler vi neurale netværk til at forudsige sepsis og sammenligner dem med XGBoost, en udbredt træbaseret maskinlæringsmetode. Vores data er multivariate tidsserier med skæv klassefordeling (få positive tilfælde) og mange manglende værdier – forhold, der gør præcis forudsigelse vanskelig. For at håndtere disse udfordringer afprøver vi og tilpasser flere tidsseriemodeller: LSTM (Long Short-Term Memory), TCN (Temporal Convolutional Network), BRITS og GRU-D, som er designet til sekvensdata og kan håndtere uregelmæssigt målte værdier. Vi foreslår en arkitektur, der kombinerer disse sekvensmodeller med udtrukne træk fra dataene, herunder demografiske oplysninger, træk der beskriver hvor ofte målinger registreres (observationsrate), repræsentationer af manglende data samt delta-repræsentationer (ændringer over tid). For at adressere den skæve klassefordeling anvender vi desuden en klassevægtet tabfunktion. Vores forsøg viser, at neurale netværk har gavn af at få eksplicit information om observationsraten, og at repræsentationer af manglende data er nyttige input. Blandt de afprøvede modeller klarer BRITS og GRU-D sig bedst på forskellige datasæt. På ét datasæt er vores model, trods XGBoosts bedre samlede præstationsmål, mere velegnet i en klinisk kontekst, fordi dens sandsynlighedsestimater er bedre kalibreret (dvs. bedre overensstemmelse mellem forudsagte sandsynligheder og faktiske udfald).
Sepsis is a severe complication of infection, and early prediction can save lives. In this project, we develop neural network models to predict sepsis and compare them with XGBoost, a widely used tree-based machine learning method. Our data consist of multivariate time series with strong class imbalance (few positive cases) and many missing values—conditions that make accurate prediction challenging. To tackle these issues, we adapt and test several time-series models: LSTM (Long Short-Term Memory), TCN (Temporal Convolutional Network), BRITS, and GRU-D, which are designed for sequential data and can handle irregular measurements. We propose an architecture that combines these sequence models with engineered features, including demographics, features describing how often measurements are taken (observation rate), representations of missing data, and delta representations (changes over time). We also use a class-weighted loss function to address class imbalance. Our experiments show that neural networks benefit from explicit information about observation rate, and that missingness representations are useful inputs. Among the tested models, BRITS and GRU-D achieve the best results on different datasets. On one dataset, despite XGBoost having better overall performance metrics, our model is preferable in a clinical setting because its probability estimates are better calibrated (that is, they align more closely with observed outcomes).
[This summary has been rewritten with the help of AI based on the project's original abstract]
Documents
