A Non-Stationary Synthetic Data Generator for Longitudinal Data

Authors

Jhajharia, Prasun ; Grimm, Mirko

Term

4. term

Education

Computer Science (IT), Master

Publication year

2025

Submitted on

2025-06-13

Abstract

Longitudinal datasets contain repeated observations of individuals over time and are widely used in healthcare, finance, and education. GDPR limits sharing of such sensitive data. Synthetic data offer a practical way to imitate key statistical patterns of real data while reducing the risk of exposing personal information. Many current synthetic data tools, such as Bayesian networks, are interpretable but designed for static snapshots, so they often miss time-based patterns. We introduce a method for generating synthetic longitudinal categorical data using segment-wise Dynamic Bayesian Networks (DBNs). A DBN is a probabilistic model that describes how variables influence each other from one time step to the next. Our approach detects change points in sequences to identify non-stationary segments and trains a separate DBN for each segment. We then combine what we learn by extracting common structures across segments and grouping similar segment behaviors using clustering. To create new sequences, we sample from these clusters, helping preserve temporal coherence (plausible evolution over time) and structural realism (reasonable relationships among variables). We evaluated the method on both simulated and real-world datasets, including Electronic Health Records (EHRs). Compared with baseline methods, our synthetic data had lower utility (less accurate for some analyses) but provided stronger privacy protection. This shows that a modest loss in accuracy can yield meaningful gains in confidentiality.

Longitudinale datasæt rummer gentagne observationer af personer over tid og bruges i bl.a. sundhedsvæsen, finans og uddannelse. GDPR begrænser deling af sådanne følsomme data. Syntetiske data giver en mulig løsning ved at efterligne centrale statistiske mønstre i de oprindelige data, samtidig med at risikoen for at afsløre personlige oplysninger mindskes. Mange eksisterende værktøjer til syntetiske data, som bayesianske netværk, er lette at fortolke, men de er primært udviklet til statiske datasæt og fanger derfor ofte ikke tidsbaserede mønstre. Vi præsenterer en metode til at generere syntetiske longitudinale kategoriske data ved hjælp af segmentvise Dynamiske Bayesianske Netværk (DBN'er). Et DBN er en sandsynlighedsmodel, der beskriver, hvordan variable påvirker hinanden fra ét tidspunkt til det næste. Vores metode finder skiftetidspunkter (change points) i forløb for at opdage ikke-stationære segmenter og træner et separat DBN for hvert segment. Derefter kombinerer vi resultaterne ved at udtrække fælles strukturer på tværs af segmenter og gruppere lignende segmentadfærd via klyngedannelse. For at generere nye forløb sampler vi fra disse klynger, hvilket hjælper med at bevare tidslig sammenhæng (at udviklingen over tid virker plausibel) og strukturel realisme (fornuftige relationer mellem variable). Vi evaluerede metoden på både simulerede og virkelige datasæt, herunder elektroniske patientjournaler (EHR). Sammenlignet med sammenligningsmetoder havde vores syntetiske data lavere nytte (mindre præcise til nogle analyser), men gav stærkere privatlivsbeskyttelse. Dette viser, at et beskedent tab i nøjagtighed kan give betydelige gevinster i fortrolighed.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

A Non-Stationary Synthetic Data Generator for Longitudinal Data