AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


A Comparison of Privacy Metrics for Synthetic Data Generation

Authors

;

Term

4. term

Publication year

2024

Submitted on

Pages

56

Abstract

Deling af data driver udviklingen af robuste maskinlæringsmodeller, især i sundhedssektoren til fx sygdomsforudsigelse. Men deling indebærer risiko for personers privatliv. Love som GDPR og HIPAA beskytter borgere og gør deling på tværs af institutioner vanskelig. Anonymiseringsteknikker fjerner eller skjuler personhenførbare oplysninger (PII) for at mindske risikoen for genidentifikation og samtidig bevare dataenes anvendelighed. Der findes mange metoder, og en fair vurdering kræver måling af både nytte og privatliv. Alligevel fokuserer tidligere arbejde ofte mest på nytten eller bruger kun et snævert udvalg af privatlivstests. Denne afhandling undersøger state-of-the-art privatlivsmetrikker—kvantitative mål, der afspejler forskellige typer privatlivsangreb (fx forsøg på at genidentificere personer eller udlede følsomme oplysninger)—for at afgøre, hvilke metrikker der er nødvendige for en grundig evaluering af anonymiserede tabeldata. Vi gennemfører to eksperimenter: (1) vi tester, om metrikkerne opfører sig som forventet, dvs. om metrikscorer følger niveauet af privatliv på tværs af anonymiseringsteknikker, og (2) vi undersøger, om metrikkerne fanger forskellige aspekter af anonymisering ved at analysere korrelationer mellem metrikscorer og klynge (gruppere) disse scorer. Eksperimenterne bruger to tabeldatasæt (MedOnc, 8.630 rækker; Texas, 25.000 rækker). Ud af 21 metrikker levede 7 op til to kriterier: de opførte sig som forventet og fangede forskellige aspekter af anonymisering. Disse 7 metrikker vurderes som et tilstrækkeligt sæt til at evaluere privatliv i anonymiserede tabeldata.

Sharing data drives the development of robust machine learning models, especially in health care for tasks like disease prediction, but it also poses privacy risks for individuals. Laws such as GDPR and HIPAA protect people’s data and make cross‑institution data sharing more difficult. Anonymization techniques remove or mask personally identifiable information (PII) to reduce re‑identification risk while keeping the data useful. Many methods exist, and fair evaluation requires measuring both utility and privacy. However, prior work often emphasizes utility or uses only a narrow set of privacy tests. This thesis examines state‑of‑the‑art privacy metrics—quantitative measures that reflect different privacy attacks (e.g., attempts to re‑identify individuals or infer sensitive attributes)—to determine which metrics are necessary for a thorough evaluation of anonymized tabular datasets. We run two experiments: (1) we test whether metric scores align with expected privacy levels across different anonymization techniques, and (2) we assess whether metrics capture different aspects of anonymization by analyzing correlations among metric scores and clustering (grouping) those scores. Experiments are conducted on two tabular datasets (MedOnc, 8,630 rows; Texas, 25,000 rows). Of 21 metrics, 7 met two criteria: they behaved as expected and captured distinct aspects of anonymization. These 7 metrics are deemed a sufficient set for evaluating the privacy of anonymized tabular data.

[This summary has been rewritten with the help of AI based on the project's original abstract]