Wetenschap
Krediet:CC0 Publiek Domein
Met de eerste hoge boetes voor het overtreden van de EU General Data Protection Regulation (GDPR) regelgeving op ons, en de Britse regering die op het punt staat de AVG-richtlijnen te herzien, onderzoekers hebben laten zien hoe zelfs geanonimiseerde datasets kunnen worden herleid tot individuen met behulp van machine learning.
De onderzoekers zeggen hun paper, vandaag gepubliceerd in Natuurcommunicatie , laat zien dat het toestaan van het gebruik van gegevens - om AI-algoritmen te trainen, bijvoorbeeld - met behoud van de privacy van mensen, vereist veel meer dan alleen ruis toevoegen, steekproefgegevenssets, en andere de-identificatietechnieken.
Ze hebben ook een demonstratietool gepubliceerd waarmee mensen kunnen begrijpen hoe groot de kans is dat ze worden getraceerd, zelfs als de dataset waarin ze zich bevinden geanonimiseerd is en slechts een klein deel ervan wordt gedeeld.
Ze zeggen dat hun bevindingen een wake-up call moeten zijn voor beleidsmakers over de noodzaak om de regels voor wat echt anonieme gegevens zijn, aan te scherpen.
Bedrijven en overheden verzamelen en gebruiken routinematig onze persoonsgegevens. Onze gegevens en de manier waarop ze worden gebruikt, worden beschermd door relevante wetten zoals AVG of de Amerikaanse California Consumer Privacy Act (CCPA).
Gegevens worden 'bemonsterd' en geanonimiseerd, waaronder het strippen van de gegevens van identificerende kenmerken zoals namen en e-mailadressen, zodat individuen niet, in theorie, worden geïdentificeerd. Na dit proces, de gegevens zijn niet langer onderworpen aan de voorschriften voor gegevensbescherming, zodat het vrij kan worden gebruikt en verkocht aan derden zoals advertentiebedrijven en gegevensmakelaars.
Het nieuwe onderzoek toont aan dat eenmaal gekocht, de gegevens kunnen vaak worden reverse-engineered met behulp van machine learning om individuen opnieuw te identificeren, ondanks de anonimiseringstechnieken.
Dit kan gevoelige informatie over persoonlijk geïdentificeerde personen blootleggen, en kopers in staat te stellen steeds uitgebreidere persoonlijke profielen van individuen op te bouwen.
Het onderzoek toont voor het eerst aan hoe gemakkelijk en nauwkeurig dit kan, zelfs met onvolledige datasets.
In het onderzoek, 99,98 procent van de Amerikanen werd correct opnieuw geïdentificeerd in een beschikbare 'geanonimiseerde' dataset door slechts 15 kenmerken te gebruiken, inclusief leeftijd, geslacht, en burgerlijke staat.
Eerste auteur Dr. Luc Rocher van UCLouvain zei:"Hoewel er misschien veel mensen zijn die in de dertig zijn, mannelijk, en woonachtig in New York City, veel minder van hen werden ook op 5 januari geboren, rijden in een rode sportwagen, en wonen met twee kinderen (beide meisjes) en een hond."
Om dit aan te tonen, de onderzoekers ontwikkelden een machine learning-model om de waarschijnlijkheid te evalueren dat de kenmerken van een individu nauwkeurig genoeg zijn om slechts één persoon in een populatie van miljarden te beschrijven.
Ze ontwikkelden ook een online tool, die geen gegevens opslaat en alleen voor demonstratiedoeleinden is, om mensen te helpen zien welke kenmerken hen uniek maken in datasets.
De tool vraagt je eerst om het eerste deel van hun post (VK) of ZIP (VS) code in te voeren, geslacht, en geboortedatum, voordat ze de kans krijgen dat hun profiel opnieuw kan worden geïdentificeerd in een geanonimiseerde dataset.
Vervolgens wordt uw burgerlijke staat gevraagd, aantal voertuigen, eigendomsstatus van het huis, en arbeidsstatus, alvorens te herberekenen. Door meer kenmerken toe te voegen, de kans dat een match correct is, neemt dramatisch toe.
Senior auteur Dr. Yves-Alexandre de Montjoye, van de afdeling Informatica van Imperial, en Data Science Instituut, zei:"Dit is vrij standaardinformatie waar bedrijven naar kunnen vragen. Hoewel ze gebonden zijn aan de AVG-richtlijnen, ze zijn vrij om de gegevens aan iedereen te verkopen zodra ze zijn geanonimiseerd. Ons onderzoek laat zien hoe gemakkelijk - en hoe nauwkeurig - individuen kunnen worden getraceerd zodra dit gebeurt.
Hij voegde eraan toe:"Bedrijven en overheden hebben het risico van heridentificatie gebagatelliseerd door te stellen dat de datasets die ze verkopen altijd onvolledig zijn.
"Onze bevindingen spreken dit tegen en tonen aan dat een aanvaller gemakkelijk en nauwkeurig de waarschijnlijkheid kan inschatten dat het gevonden record toebehoort aan de persoon die hij zoekt."
Het opnieuw identificeren van geanonimiseerde gegevens is hoe journalisten de belastingaangiften van Donald Trump 1985-94 in mei 2019 openbaar maakten.
Co-auteur Dr. Julien Hendrickx van UCLouvain zei:"We zijn er vaak van verzekerd dat anonimisering onze persoonlijke informatie veilig zal houden. Ons artikel toont aan dat de-identificatie lang niet genoeg is om de privacy van de gegevens van mensen te beschermen."
De onderzoekers zeggen dat beleidsmakers meer moeten doen om individuen tegen dergelijke aanvallen te beschermen. die ernstige gevolgen kunnen hebben voor zowel carrières als persoonlijke en financiële levens.
Dr. Hendrickx voegde toe:"Het is essentieel dat de anonimiseringsnormen robuust zijn en rekening houden met nieuwe bedreigingen zoals die in dit document worden aangetoond."
Dr. de Montjoye zei:"Het doel van anonimisering is dat we gegevens kunnen gebruiken in het voordeel van de samenleving. Dit is uiterst belangrijk, maar mag en hoeft niet ten koste te gaan van de privacy van mensen."
Wetenschap © https://nl.scienceaq.com