science >> Wetenschap >  >> Elektronica

De privacyrisico's van het verzamelen van mobiliteitsgegevens

MIT-onderzoekers vinden dat de groeiende praktijk van het verzamelen van enorme datasets over de bewegingspatronen van mensen voor stadsplanning en ontwikkelingsonderzoek kan, in feite, de privégegevens van mensen in gevaar brengen, zelfs als die gegevens geanonimiseerd zijn. Krediet:Massachusetts Institute of Technology

Een nieuwe studie door MIT-onderzoekers stelt vast dat de groeiende praktijk van het samenstellen van massale, geanonimiseerde datasets over de bewegingspatronen van mensen is een tweesnijdend zwaard:hoewel het diepgaande inzichten kan bieden in menselijk gedrag voor onderzoek, het kan ook de privégegevens van mensen in gevaar brengen.

Bedrijven, onderzoekers, en andere entiteiten beginnen te verzamelen, winkel, en geanonimiseerde gegevens verwerken die "locatiestempels" (geografische coördinaten en tijdstempels) van gebruikers bevatten. Gegevens kunnen worden opgehaald uit gegevens van mobiele telefoons, creditcard transacties, openbaar vervoer smartcards, Twitter-accounts, en mobiele apps. Het samenvoegen van die datasets kan rijke informatie opleveren over hoe mensen reizen, bijvoorbeeld, om transport en stadsplanning te optimaliseren, onder andere.

Maar met big data komen grote privacyproblemen:locatiestempels zijn zeer specifiek voor individuen en kunnen voor snode doeleinden worden gebruikt. Recent onderzoek heeft aangetoond dat, gegeven slechts een paar willekeurig geselecteerde punten in mobiliteitsdatasets, iemand zou gevoelige informatie over individuen kunnen identificeren en leren. Met samengevoegde mobiliteitsdatasets, dit wordt nog eenvoudiger:een agent kan mogelijk de trajecten van gebruikers matchen in geanonimiseerde gegevens uit één dataset, met gedeanonimiseerde gegevens in een andere, om de geanonimiseerde gegevens te ontmaskeren.

In een artikel dat vandaag is gepubliceerd in IEEE-transacties op big data , de MIT-onderzoekers laten zien hoe dit kan gebeuren in de allereerste analyse van zogenaamde user "matchability" in twee grootschalige datasets uit Singapore, één van een mobiele netwerkoperator en één van een lokaal transportsysteem.

De onderzoekers gebruiken een statistisch model dat locatiestempels van gebruikers in beide datasets volgt en een kans geeft dat datapunten in beide sets van dezelfde persoon komen. Bij experimenten, de onderzoekers ontdekten dat het model ongeveer 17 procent van de individuen kon matchen in een week aan gegevens, en meer dan 55 procent van de individuen na een maand verzamelde gegevens. Het werk toont een efficiënte, schaalbare manier om mobiliteitstrajecten in datasets te matchen, wat een zegen kan zijn voor onderzoek. Maar, waarschuwen de onderzoekers, dergelijke processen kunnen de mogelijkheid vergroten om echte gebruikersgegevens te deanonimiseren.

"Als onderzoekers, wij geloven dat het werken met grootschalige datasets kan leiden tot het ontdekken van ongekende inzichten over de menselijke samenleving en mobiliteit, waardoor we steden beter kunnen plannen. Hoe dan ook, het is belangrijk om aan te tonen of identificatie mogelijk is, zodat mensen zich bewust zijn van mogelijke risico's van het delen van mobiliteitsgegevens, " zegt Daniël Kondor, een postdoc in de Future Urban Mobility Group bij de Singapore-MIT Alliance for Research and Technology.

"Bij het publiceren van de resultaten - en, vooral, de gevolgen van het deanonimiseren van gegevens - we voelden ons een beetje als 'witte hoed' of 'ethische' hackers, " voegt co-auteur Carlo Ratti toe, een professor van de praktijk in MIT's Department of Urban Studies and Planning en directeur van MIT's Senseable City Lab. "We vonden het belangrijk om mensen te waarschuwen voor deze nieuwe mogelijkheden [van het samenvoegen van gegevens] en om te overwegen hoe we dit zouden kunnen reguleren."

De co-auteurs van de studie zijn Behrooz Hashemian, een postdoc bij het Senseable City Lab, en Yves-Alexandre de Mondjoye van het Department of Computing and Data Science Institute van Imperial College London.

Valse positieven elimineren

Om te begrijpen hoe het matchen van locatiestempels en mogelijke deanonimisering werkt, overweeg dit scenario:"Ik was twee dagen geleden op Sentosa Island in Singapore, kwam gisteren naar de luchthaven van Dubai, en ben vandaag op Jumeirah Beach in Dubai. Het is hoogst onwaarschijnlijk dat het traject van iemand anders er precies hetzelfde uitziet. Kortom, als iemand mijn geanonimiseerde creditcardgegevens heeft, en misschien mijn open locatiegegevens van Twitter, ze kunnen dan mijn creditcardgegevens deanonimiseren, ' zegt Ratti.

Er bestaan ​​vergelijkbare modellen om deanonimisering in gegevens te evalueren. Maar die gebruiken rekenintensieve benaderingen voor heridentificatie, wat betekent om anonieme gegevens samen te voegen met openbare gegevens om specifieke individuen te identificeren. Deze modellen hebben slechts op beperkte datasets gewerkt. De MIT-onderzoekers gebruikten in plaats daarvan een eenvoudigere statistische benadering - het meten van de kans op valse positieven - om de matchbaarheid tussen scores van gebruikers in enorme datasets efficiënt te voorspellen.

In hun werk, de onderzoekers hebben twee geanonimiseerde "low-density" datasets samengesteld - een paar records per dag - over het gebruik van mobiele telefoons en persoonlijk vervoer in Singapore, meer dan een week opgenomen in 2011. De mobiele data was afkomstig van een grote mobiele netwerkoperator en omvatte tijdstempels en geografische coördinaten in meer dan 485 miljoen records van meer dan 2 miljoen gebruikers. De transportgegevens bevatten meer dan 70 miljoen records met tijdstempels voor personen die zich door de stad verplaatsen.

De kans dat een bepaalde gebruiker records in beide datasets heeft, zal toenemen met de grootte van de samengevoegde datasets, maar dat geldt ook voor de kans op valse positieven. Het model van de onderzoekers selecteert een gebruiker uit de ene dataset en vindt een gebruiker uit de andere dataset met een groot aantal overeenkomende locatiestempels. Simpel gezegd, naarmate het aantal overeenkomende punten toeneemt, de kans op een fout-positieve match neemt af. Na het matchen van een bepaald aantal punten langs een traject, het model sluit de mogelijkheid uit dat de match een false positive is.

Gericht op typische gebruikers, ze schatten een matchability-succespercentage van 17 procent over een week van gecompileerde gegevens, en ongeveer 55 procent gedurende vier weken. Die schatting springt naar ongeveer 95 procent met gegevens die over 11 weken zijn verzameld.

De onderzoekers schatten ook hoeveel activiteit er nodig is om de meeste gebruikers gedurende een week te matchen. Kijkend naar gebruikers met tussen de 30 en 49 persoonlijke transportrecords, en rond 1, 000 mobiele records, ze schatten meer dan 90 procent succes met een week aan gecompileerde gegevens. Aanvullend, door de twee datasets te combineren met GPS-sporen - die regelmatig actief en passief worden verzameld door smartphone-apps - schatten de onderzoekers dat ze 95 procent van de individuele trajecten konden evenaren, met minder dan een week aan gegevens.

Betere privacy

Met hun studie de onderzoekers hopen het publieke bewustzijn te vergroten en strengere regels voor het delen van consumentengegevens te bevorderen. "Alle gegevens met locatiestempels (wat de meeste van de tegenwoordig verzamelde gegevens zijn) zijn potentieel zeer gevoelig en we zouden allemaal beter geïnformeerde beslissingen moeten nemen over met wie we ze delen, Ratti zegt. "We moeten blijven nadenken over de uitdagingen bij het verwerken van grootschalige data, over individuen, en de juiste manier om voldoende waarborgen te bieden voor het behoud van de privacy."

Daartoe, Ratti, Kondor, en andere onderzoekers hebben uitgebreid gewerkt aan de ethische en morele kwesties van big data. In 2013, het Senseable City Lab van MIT lanceerde een initiatief genaamd "Engaging Data, " waarbij leiders van de regering betrokken zijn, groepen voor privacyrechten, academische wereld, en zaken, die onderzoeken hoe mobiliteitsgegevens kunnen en moeten worden gebruikt door de gegevensverzamelende bedrijven van vandaag.

"De wereld van vandaag wordt overspoeld met big data, " zegt Kondor. "In 2015 de mensheid produceerde net zoveel informatie als in alle voorgaande jaren van de menselijke beschaving werd gecreëerd. Hoewel data een betere kennis van de stedelijke omgeving betekent, momenteel is veel van deze schat aan informatie in handen van slechts enkele bedrijven en openbare instellingen die veel over ons weten, terwijl we er zo weinig van weten. We moeten ervoor zorgen dat we datamonopolies en misbruik vermijden."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.