science >> Wetenschap >  >> Elektronica

Waarom de zoektocht naar een privacybeschermend mechanisme voor het delen van gegevens mislukt

Krediet:Pixabay/CC0 publiek domein

Van bankieren tot communicatie, ons moderne, dagelijkse leven wordt gedreven door data met voortdurende zorgen over privacy. Nu, een nieuw EPFL-artikel gepubliceerd in Nature Computational Science stelt dat veel beloften over privacybeschermende mechanismen nooit zullen worden nagekomen en dat we deze inherente limieten moeten accepteren en niet het onmogelijke moeten najagen.

Gegevensgestuurde innovatie in de vorm van gepersonaliseerde geneeskunde, betere openbare diensten of bijvoorbeeld groenere en efficiëntere industriële productie belooft enorme voordelen voor mens en onze planeet te brengen en wijdverbreide toegang tot gegevens wordt als essentieel beschouwd om deze toekomst te stimuleren. Maar agressieve praktijken voor het verzamelen en analyseren van gegevens wekken alarm over maatschappelijke waarden en grondrechten.

Als gevolg hiervan is hoe de toegang tot gegevens te verbreden en tegelijkertijd de vertrouwelijkheid van gevoelige persoonlijke informatie te waarborgen een van de meest voorkomende uitdagingen geworden bij het ontketenen van het potentieel van gegevensgestuurde technologieën en een nieuw artikel van EPFL's Security and Privacy Engineering Lab (SPRING) in de School of Computer and Communication Sciences stelt dat de belofte dat elk datagebruik oplosbaar is onder zowel goede bruikbaarheid als privacy, verwant is aan het najagen van regenbogen.

Hoofd van het SPRING Lab en co-auteur van het artikel, assistent-professor Carmela Troncoso, zegt dat er twee traditionele benaderingen zijn om privacy te beschermen:"Er is de weg van het gebruik van privacybeschermende cryptografie, het verwerken van de gegevens in een gedecodeerd domein en het verkrijgen van een resultaat. Maar de beperking is de noodzaak om zeer gerichte algoritmen te ontwerpen en niet alleen generieke berekeningen uit te voeren."

Het probleem met dit soort privacybeschermende technologie, zo stelt de paper, is dat ze niet een van de belangrijkste problemen oplossen die het meest relevant zijn voor beoefenaars:hoe kunnen gegevens van hoge kwaliteit op individueel niveau worden gedeeld op een manier die de privacy bewaart maar toelaat analisten om de volledige waarde van een dataset op een zeer flexibele manier te extraheren.

De tweede manier om deze uitdaging op te lossen is de anonimisering van gegevens, dat wil zeggen het verwijderen van namen, locaties en postcodes, maar, stelt Troncoso, vaak zijn de gegevens zelf het probleem. "Er is een beroemd Netflix-voorbeeld waarbij het bedrijf besloot datasets vrij te geven en een openbare wedstrijd uit te voeren om betere 'aanbevelingsalgoritmen' te produceren. Het verwijderde de namen van klanten, maar toen onderzoekers filmbeoordelingen vergeleken met andere platforms waar mensen films beoordelen, konden ze om mensen te de-anonimiseren."

Meer recentelijk zijn synthetische gegevens naar voren gekomen als een nieuwe anonimiseringstechniek, maar het artikel suggereert dat, in tegenstelling tot de beloften van de voorstanders, het onderhevig is aan dezelfde afwegingen tussen privacy en nut als de traditionele anonimisering van gegevens. "Zoals we in onze paper zeggen, moeten onderzoekers en praktijkmensen de inherente afweging accepteren tussen hoge flexibiliteit in gegevenshulpprogramma's en sterke garanties rond privacy", zegt Theresa Stadler, doctoraalassistent in het SPRING Lab en co-auteur van de paper.

"Dit kan heel goed betekenen dat de reikwijdte van datagestuurde applicaties moet worden beperkt en dat gegevenshouders expliciete keuzes moeten maken over de aanpak van het delen van gegevens die het meest geschikt is voor hun gebruik", vervolgt Stadler.

Een andere belangrijke boodschap van de paper is het idee van een langzamere, meer gecontroleerde release van technologie. Tegenwoordig is ultrasnelle implementatie de norm met een "we lossen het later wel op"-mentaliteit als er iets misgaat, een aanpak die volgens Troncoso erg gevaarlijk is:"We moeten beginnen te accepteren dat er grenzen zijn. Willen we echt doorgaan met deze gegevens, gratis voor iedereen waar geen privacy is en met grote gevolgen voor de democratie? Het is net als Groundhog Day, we praten hier al 20 jaar over en hetzelfde gebeurt nu met machine learning. We hebben algoritmen op de markt gebracht , ze zijn bevooroordeeld en de hoop is dat ze later worden opgelost. Maar wat als ze niet kunnen worden opgelost?"

Maar beperkte functionaliteit en hoge privacy is niet het bedrijfsmodel van de techgiganten en Troncoso dringt er bij ons op aan dat we allemaal zorgvuldiger nadenken over hoe ze dit kritieke probleem aanpakken.

"Veel van de dingen die Google en Apple doen, zijn in wezen hun schadelijke praktijken witwassen en de markt sluiten. Apple laat apps bijvoorbeeld geen informatie verzamelen, maar verzamelt de gegevens zelf op een zogenaamde 'privacybehoudende' manier, en verkoopt vervolgens het aan. Wat we zeggen is dat er geen manier is om de privacy te beschermen. De vraag is 'voorkwam de technologie schade van het systeem of heeft het het systeem net zo schadelijk gemaakt'? Privacy op zich is geen doel, privacy is een middelen waarmee we onszelf kunnen beschermen", besluit Troncoso.