Hvor let er det at skjule sig i mængden?

Det er fantastisk at lave forskning i Danmark. Danskerne har en lang tradtition for at deltage i forskning og bidrage med data til videnskabelige undersøgelser, og de danske registre udgør en uvurderlig ressource, som andre lande misunder os.

Befolkningens positive indstilling skyldes en kombination af den tillid, der er til forskerne, og til de systemer, der gør det muligt at bidrage samtidig med, at det er muligt at være anonym, så data ikke kan føres tilbage til en enkeltpersoner. Men er det rigtigt? Hvor let er det egentlig at forblive anonym i en verden, hvor det bliver lettere og mere almindeligt at kombinere data fra mange forskellige kilder?

Er det overhovedet muligt at beskytte personlige oplysninger med de detaljerede informationer, som vi alle bidrager med? Det er stort set umuligt - men det behøver ikke at være et problem!

I Danmark og Norden bryster vi os med at have nogle af verdens mest omfattende og velorganiserede registre til brug for forskning og hele populationen kan ses som en stor stikprøve. Danmarks Statistik samler oplysninger om alt fra fødsler og dødsfald, sygdomme, uddannelse, indkomst, boligforhold, arbejdsmarkedstilknytning, kriminalitet, sociale forhold, strømforbrug, og meget mere er samlet i registre, som forskere kan få adgang til. Det er denne ressource og infrastruktur, som gør meget forskning muligt, og den er baseret på befolkningens tillid til, at deres oplysninger bliver behandlet forsvarligt.

Men det er en tillid, der skal forvaltes med omhu og blot en enkelt stor skandale i medierne kan få tilliden til at fordufte som dug for solen. Heldigvis er der instanser sat i værk for at forhindre, at data kan spores tilbage til enkeltpersoner, og så den lokale bibliotikar ikke pludselig kan se, hvor mange huller en låner har i tænderne eller hvornår man sidst har spist en fransk hotdog.1 Se desuden Only You, Your Doctor, and Many Others May Know af Latanya Sweeney.

En teknik er at begrænse de data, som den enkelte forsker har til rådighed: need-to-know-princippet.2 Need-to-know-princippet er lidt under beskydning i disse tider. Der er et ønske om at koble flere og flere data sammen for det kunne jo være, at sjældne kombinationer kunne vise noget snyt og spændenden. Det er især gældende indenfor personlig medicin. For at det skal være “personligt” skal det jo være unikt, og det kunne jo være, at man fandt noget nyt og meget specialiseret. Færre oplysninger gør det sværere at identificere en enkeltpersoner. Mulighederne for dette ser vi på nedenfor. En anden teknik er at fjerne eller ændre tilstrækkelig mange oplysninger til at de ikke længere kan knyttes til en specifik person.

Anonymisering og pseudonymisering

Anonymisering og pseudonymisering af data er to forskellige teknikker til at beskytte personlige oplysninger.

Anonymisering har til formål at fjerne alle identificerbare oplysninger fra data, så de ikke længere kan henføres til en specifik person. Ved anonymisering fjernes, ændres eller grupperes oplysninger, så det bliver umuligt eller yderst vanskeligt at genkende individer.

Dette kan omfatte fjernelse af navne, adresser, CPR-numre og andre direkte eller indirekte identifikationsoplysninger.3 Fx højden for den højeste dansker. Hvis der kun findes netop en person med den højde, så kan den måling kobles til en konkret person. Anonymisering kan også omfatte at slå data sammen for at skabe grupper af mennesker, så individuel identifikation er umulig.4 Danmarks Statistik har eksempelvis en regel om, at tabeller skal indeholde mindst 3 observationer per celle. Ellers skal celler/tal slås sammen indtil denne grænse overholdes og dermed er med til at sikre anonymitet.

Udfordringen med anonymisering er, at de anonymiserede data kan være mindre nyttige til nogle typer analyser, da detaljerne om individer er fjernet. Der er desuden - som vi skal se nedenfor - også risiko for, at data kan genidentificeres ved at kombinere dem. Denne risiko kan være ekstra stor for nogle individer, hvis de ikke ligner resten af befolkningen.

Ved pseudonymisering erstattes direkte identificerbare oplysninger med pseudonymer eller unikke identifikatorer for at beskytte personlige oplysninger, samtidig med at datas nyttighed bevares.

I pseudonymisering bibeholdes nogle identifikationsoplysninger, men de ændres eller erstattes, så de ikke umiddelbart kan bruges til at identificere individer. Typisk anvendes kryptografiske teknikker til at skabe pseudonymer. Individdata forbliver tilgængelige for analyser, men risikoen for misbrug eller identifikation af individer er reduceret for dem, der skal arbejde med data, sålænge krypteringsnøglen hemmeligholdes.

Pseudonymisering udgør ikke en fuldstændig beskyttelse af personlige oplysninger, da det stadig er teoretisk muligt at knytte pseudonymerne til faktiske personer, især hvis der er adgang til supplerende oplysninger.

I praksis kombineres anonymisering og pseudonymisering for at opnå en højere grad af beskyttelse af personlige oplysninger, især i forbindelse med databehandling og analyse inden for sundhedsvæsenet, forskning og databeskyttelsesforordninger som GDPR (Generel Forordning om Databeskyttelse) i EU.5 Se desuden Hugo Spaldings Anonymous and pseudonymous data: Are they actually important?.

Hvor få oplysninger skal der til for indirekte at kunne identificere en bestemt person?

Lad os lave en hurtig bag-på-en-serviet-udregning af, hvor let det er at identificere en person. Groft sagt kan vi sige, at hver enkelt person fra populationen skal puttes i kasser, og hver kasse indeholder personer, der er “ens”. Når en kasse kun indeholder en person, så kan personen identificeres.

Sandsynligheden for at kunne identificere en person afhænger af to ting: 1) Populationens størrelse. I en størrepopulation er der større chance for at der er nogen, der ligner en, og derfor er det lettere at skjule sig i mængden. 2) Hvor mange forskellige oplysninger/registreringer har vi på hvert individ. Flere registreringer eller oplysninger betyder, at vi har flere “kasser” at placere hvert enkelt individ i. Når der er flere kasser er der større chance for, at en kasse kun indeholder en person.

I Danmark fødes der ca. 60000 personer om året. Hvis vi udelukkende har registreringer om personernes biologiske køn (2 grupper), så skal de 60000 personer fordeles tilfældigt i 2 kasser, og det vil være højst usandsynligt, at den ene kasse kun indeholder et individ. Det er let at forblive skjult.

Har vi derimod registreret både køn og fødselsdato (lad os for nemheds skyld sige, at der er 300 dage på et år), så er der \(2 \cdot 300 = 600\) kasser at putte de 60000 personer i. Der er stadig en del flere personer end kasser, og i gennemsnit forventer vi 100 personer i hver kasse. Risikoen for at have en kasse, der kun indeholder et enkelt individ er stadig meget lille.6 Her har vi lidt stiltiende antaget, at både fødsler og køn sker ligeligt henover året, men det er som sagt kun en serviet-udregning.

Hvis vi har registreret køn, fødselsdato og kommune (lad os sige, at der er 100 kommuner i Danmark), så er der \(2 \cdot 300 \cdot 100 = 60000\) kasser at putte de 60000 personer i. Nu er der i gennemsnit 1 person i hver kasse, og risikoen for at have en eller flere kasser, der kun indeholder et enkelt individ er enorm. Med disse tre oplysninger: køn, fødselsdato og kommune, kan vi altså identificere nogle personer med stor sandsynlighed. Det er helt almindelige oplysninger, der ikke er svære at finde.7 Husk at dette bare er et eksempel. I praksis skal en forsker redegøre for, at der er brug for eksempelvis den konkrete fødselsdato og ikke bare fødselsår. Men pointen er, at med en lille håndfuld variable bliver problemstillingen den samme. Mere skal der ikke til.

Sammenhængen mellem personer og “kasser”

Antag at vi på baggrund af data har \(K\) mulige kasser, som vi kan putte \(N\) personer i. Med køn, fødselsdato og kommune er der eksempelvis \(K = 2 \cdot 365 \cdot 98 = 71540\) kasser. For udregningens skyld antager vi desuden, at alle kasser er lige sandsynlige.

Hvis vi starter med at betragte en vilkårlig af vores kasser, så er sandsynligheden for at denne kasse indeholder netop én person givet ved binomialfordelingspunktsandsynligheden

\[N\frac{1}{K} \left(1 - \frac{1}{K}\right)^{N-1}\]

For at finde andelen af kasser, der indeholder netop en person, kan vi gange dette med antallet af kasser \(K\), og vi får

\[K\cdot N \frac{1}{K} \left(1 - \frac{1}{K}\right)^{N-1} = N \left(1 - \frac{1}{K}\right)^{N-1}\]

I alt er andelen af personer, der er alene i en kasse altså Som et lille statistik-kuriosum kan det nævnes, at det er samme formel og resultat, der dukker op med ikke-parametrisk bootstrap. Når der er lige så mange kasser som personer, \(K=N\), så er sandsynligheden for at en person ikke er med i bootstrapstikprøven (der var ingen personer i kassen) givet ved exp(-1) ≈ 0.368. Hver bootstrap sample indeholder i gennemsnit 63.2% af personerne.

\[\frac{N \left(1 - \frac{1}{K}\right)^{N-1}}{N} = \left(1 - \frac{1}{K}\right)^{N-1} \approx \exp\left(-\frac{N}{K}\right).\]

Med oplysninger om blot køn, fødselsdato og kommune kan vi forvente, at der ud af en danske årgang på ca. 60000 personer vil være ca. 43%, der kan identificeres! Til sammenligning er der ca. 19% der kan identificeres, hvis man udelukkende har oplysninger om kommune og fødselsdato, mens stort set ingen (tæt på 0%) i gennemsnit kan identificeres ud fra fødselsdato og køn alene. Tilsvarende kan man udregne sandsynligheden for at have henholdsvis to personer i en kasse, tre personer i en kasse osv. svarende til eksempelvis kravene fra Danmarks Statistik.8 Det er dog værd at bemærke, at hvis der er tre personer i en enkelt kasse så er der stadig 1/3 sandsynlighed for korrekt at identificere af dem. Det er svært helt at forsvinde i mængden, når mængden er lille.

Figur 1: Gennemsnitlig andel af populationen, der kan identificeres ud af en population på 60000. Bemærk logaritmisk x-akse, og at populationen svarer til en dansk årgang, så i dette eksempel er det derfor underforstået at man allerede kender fødselsåret.

For en dansk årgang på 60000 personer begynder der at ske noget, når der er omkring 10000 kasser. Det kan lyde af meget, men der er 16384 kasser allerede med 14 binære oplysninger (fx ja/nej-spørgsmål) og med 20 binære oplysninger er der 1048576 kasser. Med andre ord er det ikke fuldstændig urealistisk at nå højt op i antallet af kasser.

Når fordelingen i kasser er ubalanceret, falder den gennemsnitlige andel af populationen, der kan identificeres, medmindre forholdet mellem antallet af personer og kasser er meget stort. Med lidt god vilje er det altså okay at bruge ovenstående approksimation som rettesnor.

Figuren ovenfor viser andelen af populationen, som vil være personhenførbare. Vi kan også se på sandsynligheden for at kunne reidentificere mindst én person i populationen. Selvom andelen der kan reidentificeres måske er lav skal det afvejes med, hvor sandsynligt det er, at nogen kan identificeres.

Figur 2 nedenfor viser sammenhængen mellem antallet af kasser og sandsynligheden for at kunne reidentificere mindst én person i en population på 60000. Risikoen for at der findes mindst en kasse, der indeholder blot et individ stiger hastigt og er tæt på 100% allerede ved omkring 7000 kasser.

Figur 2: Sandsynlighed for at kunne reidentificere mindst en person i en population på 60000. Bemærk logaritmisk x-akse og at populationen svarer til en dansk årgang, så man fra start af allerede kender fødselsåret.

Hvilke typer data er problematiske?

Ovenstående overvejelser fokuserer udelukkende på de teoretiske, sandsynlighedsmæssige betragtninger: hvad er den potentielle risiko for at en person med adgang til data vil være i stand til at identificere enkeltpersoner?

I praksis er det sværere for en forsker eller en udefrakommende af identificere enkeltpersoner. Det kan godt være, at der er mange registreringer til rådighed, men det er ikke sikkert, at disse særlig let kan kobles til en specifik person ude i den virkelige verden.

Meget detaljerede oplysninger i et datasæt, som fx at der findes en enkelt person, der havde en vægt på 99.08 kg den 1. april 2001, at personen dagen inden foretog et enkelt indkøb af 2 kg økologiske gulerødder, og at personen dagen efter dag lyttede til Abbas “Dancing Queen” på Spotify 4 gange i træk, gør det ikke nødvendigvis lettere at identificere personen ude i samfundet. Oplysningerne er meget gamle og flygtige, og selvom de måske nok identificerer en enkelt person, så er personen i praksis umulig at finde frem til den dag i dag.

Ligeledes er DNA-profiler unikke og kan derfor identificere enkeltpersoner, Imidlertid er det ikke let direkte at “se” eller skaffe naboens DNA-profil og koble en person i en database til en person i den virkelige verden. Nogle oplysninger er simpelthen sværere at skaffe og koble til en konkret person - også selvom de sandsynlighedsmæssigt gør, at oplysningerne giver anledning til mange kasser og dermed kasser, der kun indeholder en person.

Mange af oplysningerne, der findes i forskningsdatabaser, er ikke så lette at skaffe om naboen, den lokale politiker eller en kendt person.

Eksempel på data i offentligheden, deres bidrag med kasser og tilgængelighed.

Information Typiske inddelinger Let at skaffe?
Køn 2 ✓✓✓
Alder 80 ✓✓✓
Bopælskommune i dag 98 ✓✓✓
Fødselsdag 365 ✓✓
Socioøkonomisk status 3-5
Uddannelsesniveau 3-7
Familiehistorik / tidligere sygdom 2

Er syntetiske data fremtiden?

Syntetiske data nævnes ofte som en måde at håndtere problemet med personhenførbare data. Syntetiske data er simulerede data, som har de samme egenskaber som de rigtige data.9 “Syntetiske data” er bare et andet ord for “simulerede data”. Gammel vin på nye flasker. Det gør det muligt at dele de syntetiske data med andre forskere uden at dele de oprindelige data, men det løser ikke problemet med der er stadig nogen, der skal have fat i de rå data for at kunne producere de syntetiske data, checke deres validitet og brugbarhed.

Og hvis vi giver los og laver syntetiske versioner af vores unikke registre, så skal vi stadig være opmærksom på, hvem der får adgang så vi ikke forærer den danske forskningsguldgrube væk.

Er risikoen for at blive identificeret et reelt problem?

Der er tre situationer, hvor pseudonymiteten kan tænkes at blive kompromitteret - selv når åbenlyse identificérbare oplysninger som navn, cpr-nummer, adresse eller telefonnummer er fjernet:

  • Er en forsker i stand til at koble data til en konkret person, som forskeren ved er med i databasen? Forskeren vil identificere en konkret person, som forskeren ved er med i databasen. Eksempel: forskeren vil finde sin nabo i databasen, og forskeren ved, at naboen er med i databasen.

  • Er en forsker i stand til at koble data til en bestemt person i den virkelige verden? Forskeren vil identificere en konkret person, men forskeren ved ikke, om personen er med i databasen. Eksempel: forskeren vil finde statsministeren i databasen, men forskeren ved ikke, om statsministeren overhovedet er med i databasen.

  • Er en forsker i stand til at koble data til en person i den virkelige verden? Forskeren vil identificere en person i populationen, der matcher en person i databasen. Eksempel: forskeren vil finde frem til den person i befolkningen, der matcher en bestemt person i databasen.

Når vi går fra punkt 1 til 2 til 3 bliver det sværere og sværere at misbruge oplysningerne i databasen. For de danske registre og data fra Danmarks Statistisk er der en række sikkerhedsforanstaltninger, der gør det sværere at misbruge oplysningerne: man får ikke udleveret flere data, end man kan retfærdiggøre at man har brug for, og man må ikke søge på enkeltpersoners oplysninger. Derudover føres der en log over, hvad man foretager sig, så brodne kar kan nægtes adgang. Vi skal værdsætte de nuværende “begrænsninger” med ikke at give los på at give adgang til at sammenkøre alle mulige data - også selvom det bliver endnu lettere at kombinere data i fremtiden.

Når unikke informationer som navn, cpr-nummer, adresse eller telefonnummer ikke er til stede, så bliver det markant sværere for en person med skumle hensigter og adgang til data at henføre dem til en konkret person. Så skal vi være bekymrede for, om vi “ikke kan skjule os i mængden”: i teorien ja - i praksis nej. Det nuværende system giver mening og virker faktisk efter hensigten.