Applying Differential Privacy to DBMS Bug Reporting: A Reproducibility-Retention Study with Synthetic Relational Data
Author
Hrabaszcz, Damian Mateusz
Term
4. term
Education
Publication year
2026
Abstract
Dette speciale undersøger, om dataafhængig DBMS-fejladfærd kan bevares efter differentielt privat relationssyntese, så fejl kan rapporteres uden at dele rå produktionsdata. Arbejdet følger en totrinsproces: (1) LLM-understøttet udvælgelse af kandidater fra offentlige fejlrapporter efter tydelige acceptkriterier og (2) skemastyret tilpasning til et reproducerbart MySQL-setup med deterministisk eksekveringsvalidering. Kriterierne prioriterer bevarelse af fejlaftriggere, realistisk skemaimplementering og målbar observérbarhed. Evalueringen omfatter to MySQL-optimeringsfejl, #111669 og #74602, afprøvet på StackOverflow-afledte relationsdata syntetiseret med dp-relational, hvor kilde- og syntetiske datasæt sammenlignes under matchede kørselsbetingelser og konfigurations- samt privathedsbudget-sweeps. Resultaterne viser, at reproduktion på syntetiske data er mulig, men stærkt afhængig af konfiguration. For #111669 bevares den centrale timeout-asymmetri mellem hurtige delspørgsmål og langsommere kombinerede predikater på tværs af testede epsilon-værdier uden efterfølgende skalering i standardopsætningen. For #74602 kan en fast strukturgrænse-sweep reproducere ned til epsilon 1,8, hvorefter det fejler ved lavere punkter; en separat søgning finder dog et praktisk reproducerbart driftspunkt. Specialet præciserer også privathedsgrænsen: formelle DP-garantier gælder for selve syntesen, mens dataafhængige trin udenfor syntesen begrænser strenge end-to-end påstande. Tilsammen understøtter resultaterne privathedsbevidst fejlrapportering og peger på behovet for yderligere automatisering af fejlmålsat syntesekonfigurationssøgning.
This thesis investigates whether data-dependent DBMS bug behavior can be retained after differentially private relational synthesis, enabling bug reports without sharing raw production data. The work uses a two-stage process: (1) LLM-assisted selection of candidate bugs from public reports using explicit acceptance criteria, and (2) schema-constrained adaptation into a reproducible MySQL harness with deterministic execution validation. The criteria prioritize preserving bug triggers, realistic schema implementation, and measurable observability. The evaluation targets two MySQL optimizer bugs, #111669 and #74602, using StackOverflow-derived relational data synthesized with dp-relational, comparing source and synthetic datasets under matched execution conditions while sweeping configuration and privacy budgets. Findings show that synthetic-data reproduction is feasible but highly configuration-sensitive. For #111669, the key timeout asymmetry between fast component subqueries and slower combined predicates is retained across tested epsilon sweeps without post-synthesis scaling in the default capped setup. For #74602, a fixed-structure boundary sweep reproduces down to epsilon 1.8 and fails below that, while a separate operating-point search identifies a practical reproducible setting. The thesis also clarifies the privacy boundary: formal DP guarantees apply to synthesis stages, whereas data-dependent wrapper steps outside synthesis limit strict end-to-end claims. Overall, the results support privacy-aware bug reporting and motivate further automation of bug-targeted synthesis configuration search.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
