AI kontra databeskyttelse: Konsekvenserne af persondataforordning 2016/679 for kunstig intelligens
Oversat titel
AI versus data protection: The consequenses of the General Data Protection Regulation 2016/679 (GDPR) for artificial intelligence
Forfattere
Knudsen, Patrick Lykke ; Korsgaard, Pernille Ask
Semester
4. semester
Uddannelse
Udgivelsesår
2018
Afleveret
2018-05-16
Antal sider
65
Abstract
Dette speciale undersøger, hvordan udviklere og brugere af kunstig intelligens kan efterleve EU’s databeskyttelsesforordning (GDPR, forordning 2016/679), og påviser, at efterlevelse medfører betydelige praktiske og juridiske udfordringer. Specialet er tænkt som et værktøj for jurister, ingeniører og ledere til at identificere de regler, som AI‑systemer skal overholde. Fremstillingen begynder med en introduktion til centrale AI‑begreber med eksempler, efterfulgt af en systematisk analyse af GDPR’s principper og en gennemgang af teknologier, der kan afbøde nogle af problemerne. Afslutningen samler de identificerede udfordringer, viser deres indbyrdes sammenhæng og vurderer mulige løsninger. Vigtige udfordringer udspringer af lighederne med big data: AI bliver ofte mere præcis med meget store datasæt, mens GDPR kræver formålsbegrænsning og dataminimering. Det kan være svært for dataansvarlige (dem, der bestemmer formål og midler med behandlingen) på forhånd at beskrive formålene og vurdere, hvad der er nødvendigt, fordi AI finder mønstre automatisk, og først efter træningen står det klart, hvilke dataklynger der faktisk bidrog. Rettighederne til sletning (retten til at blive glemt) og rettelse er også udfordrende i praksis. Det kan være teknisk vanskeligt – og i nogle tilfælde ikke muligt – at slette eller rette personoplysninger inde i et trænet AI‑system, især ved dyb læring og løbende opdaterede online‑modeller. GDPR er ikke tydelig på, hvilke konkrete tiltag der kræves her, hvilket synliggør en gråzone. Manglende gennemsigtighed i både behandling og afgørelser er et andet hovedproblem. Automatiserede afgørelser kræver, at den underliggende "logik" kan forklares, og generelt stiller GDPR krav om gennemsigtighed. Det peger på behovet for metoder til forklarlig AI, som kan afhjælpe flere af de identificerede udfordringer. For at sikre passende sikkerhed skal dataansvarlige identificere aktiver og trusler: Aktiver skal beskyttes, og trusler skal imødegås. Visse trusler er særlige for AI, herunder reverse engineering, manipulerede input (adversarial injections) og bagdøre. Online‑modeller og AI baseret på dyb læring er særligt udsatte og kræver, at den konkrete AI‑type afgrænses, før passende foranstaltninger fastlægges. Mulige afbødende tiltag omfatter pseudonymisering (udskiftning af direkte identifikatorer med koder), kryptering, aggregering (sammenfatning af data) og at behandle visse aktiviteter som statistiske eller videnskabelige formål under GDPR. Den bedste løsning er, hvor det er muligt, helt at undgå personoplysninger med metoder, der ikke forringer de statistiske resultater. Specialet konkluderer, at GDPR ikke opstiller uoverstigelige krav, men at online‑modeller og dyb læring rummer særlige gråzoner, hvor løsningerne endnu er uafklarede. Ved at inddrage specialets konklusioner kan dataansvarlige bedre forberede sig på at efterleve reglerne.
This thesis examines how developers and users of artificial intelligence can comply with the EU General Data Protection Regulation (GDPR, Regulation 2016/679) and shows that compliance creates significant practical and legal challenges. It is intended as a tool for lawyers, engineers, and managers to identify the rules that AI systems must follow. The thesis begins with an introduction to key AI concepts with examples, followed by a systematic analysis of GDPR’s principles and a review of technologies that may alleviate some obstacles. The conclusion brings the issues together, maps their relationships, and evaluates potential solutions. Major challenges stem from AI’s overlap with big data: models often perform better with very large datasets, while GDPR requires purpose limitation and data minimization. It can be difficult for controllers (those who decide why and how data is processed) to specify purposes in advance and judge what is necessary, because AI discovers patterns automatically and only after training is it clear which data clusters actually contributed. Data subject rights to erasure (the right to be forgotten) and rectification are also hard to fulfill in practice. Removing or correcting personal data inside a trained AI system can be technically difficult—and sometimes not feasible—especially in deep learning and continuously updated online models. GDPR provides limited clarity on what measures are required, leaving a grey area. A further concern is lack of transparency in both processing and outcomes. Automated decision‑making requires that the underlying "logic" be explained, and GDPR more broadly demands transparency. This calls for explainable AI methods, which could mitigate several of the identified issues. To ensure appropriate security, controllers must identify assets and threats: assets should be protected and threats countered. Some threats are specific to AI, including reverse engineering, adversarial injections (manipulated inputs), and backdoors. Online models and deep learning systems face heightened risks and require the specific AI to be identified so measures can be tailored. Possible mitigations include pseudonymization (replacing direct identifiers with codes), encryption, aggregation (summarizing data), and treating certain processing as for statistical or scientific purposes under GDPR. Ideally, where feasible, personal data should be avoided altogether using methods that do not degrade statistical performance. The thesis concludes that GDPR obligations are demanding but not impossible to meet. Online models and deep learning present particular grey areas where solutions are still emerging, but by applying the thesis’s conclusions, controllers can better prepare for compliance.
[Dette resumé er genereret ved hjælp af AI]
Emneord
AI ; GDPR ; persondataforordningen ; databeskyttelsesforordningen ; personoplysninger ; deep learning ; online ; persondata ; databeskyttelse ; machine learning ; dyb læring ; maskinlæring ; offline ; continuous ; discontinuous ; General Data Protection Regulation ; model ; artificial intelligens ; kunstig intelligens ; dataminimering ; formålsspecifikation ; formålsbegrænsning ; rigtighed ; opbevaringsbegrænsning ; integritet og fortrolighed ; ansvarlighed ; automatiske afgørelser ; profilering ; artikel 5 ; big data ; beslutningstræ ; aggregering ; neurale netværk ; data ; sort boks ; black box ; træningsdata ; pseudonymisering ; anonymisering ; grundlæggende principper ; lovlighed ; rimelighed ; gennemsigtighed ; explainable AI ; databeskyttelsesloven ; persondataloven
