science >> Wetenschap >  >> Elektronica

Gewijzigde datasets kunnen nog steeds statistische integriteit bieden en privacy behouden

Synthetische netwerken kunnen de beschikbaarheid van sommige gegevens vergroten en tegelijkertijd de privacy van individuen of instellingen beschermen, volgens een statisticus van Penn State.

"Mijn belangrijkste interesse is het ontwikkelen van methodologie die een bredere uitwisseling van vertrouwelijke gegevens mogelijk zou maken op een manier die kan helpen bij wetenschappelijke ontdekking, " zei Aleksandra Slavkovic, hoogleraar statistiek en adjunct-decaan voor graduate onderwijs, Eberly College of Science, Penn State. "In staat zijn om vertrouwelijke gegevens te delen met een minimaal kwantificeerbaar risico voor het ontdekken van gevoelige informatie en toch statistische nauwkeurigheid en integriteit te garanderen, is het doel."

Slavkovic heeft oplossingen gevonden voor dit probleem van gegevensprivacy door interdisciplinaire samenwerkingen, vooral met computer- en sociale wetenschappers. Haar onderzoek richt zich op verschillende data, inclusief netwerkgegevens die relatie-informatie vastleggen tussen entiteiten zoals individuen of instellingen. Ze rapporteerde haar benaderingen om synthetische netwerken te bieden die vandaag (16 februari) voldoen aan een notie van differentiële privacy tijdens de jaarlijkse bijeenkomst van de American Association for the Advancement of Science in 2019 in Washington, gelijkstroom

Differentiële privacy biedt een wiskundig aantoonbare garantie van het niveau van privacyverlies voor individuen.

Wetenschappers willen toegang tot gegevens die door anderen zijn verzameld voor hun onderzoek, maar dergelijke toegang kan ook de persoonlijke privacy in gevaar brengen, zelfs na verwijdering van zogenaamde persoonlijk identificeerbare gegevens.

"Een overvloed aan hulpgegevens is de belangrijkste boosdoener, " zei Slavkovic. "Met methodologische en technologische vooruitgang in het verzamelen van gegevens en het koppelen van records, gemakkelijker toegang tot verschillende gegevensbronnen die kunnen worden gekoppeld aan een gegevensset in de hand, en financieringsinstanties eisen om gegevens te delen, de risico's voor de privacy van gegevens nemen toe. Maar, het vinden van goede oplossingen voor het beheer van privacyverlies is essentieel om degelijke wetenschappelijke ontdekking mogelijk te maken."

Openbaar beschikbare informatie van een medicijnonderzoek naar een hiv-medicijn, bijvoorbeeld, zou aangeven wie in de behandelingsgroep zat en wie in de controlegroep. De behandelingsgroep zou alleen mensen bevatten met de diagnose hiv en hoewel de eigenaars van de gegevens persoonlijke gegevens uit die dataset achterhielden, wat identificerende informatie zou blijven. Omdat er tegenwoordig zoveel informatie online beschikbaar is in sociale media en in andere datasets, het is mogelijk om de punten met elkaar te verbinden en mensen te identificeren, mogelijk hun hiv-status onthullen.

"Technieken om twee datasets te koppelen, zeg kiezersdossiers en ziektekostenverzekeringsgegevens, zijn sterk verbeterd, " zei Slavkovic. "In een van de vroegste bevindingen, Latanya Sweeny (nu aan Harvard) toonde aan dat door dit soort gegevens te koppelen, je kunt 87 procent van de mensen in de Amerikaanse volkstelling vanaf 1990 identificeren op basis van hun geboortedatum, geslacht en 5-cijferige postcode. Recenter, onderzoekers gebruikten tweets en bijbehorende Twitter-metadata om aan te tonen dat ze gebruikers kunnen identificeren met een nauwkeurigheid van 96,7 procent."

Slavkovic merkt op dat het niet alleen mensen of instellingen zijn wiens gegevens in de databases staan, maar dat ook mensen buiten de database last kunnen hebben van inbreuk op de privacy, rechtstreeks of via vereniging. Koppelingen tussen informatie in een dataset en informatie op sociale media kunnen leiden tot een ernstige privacyschending - zoiets als hiv-status of seksuele geaardheid kan ernstige gevolgen hebben als ze worden onthuld.

Hoewel privacy belangrijk is, verzamelde datasets vormen een essentiële informatiebron voor onderzoekers. Momenteel, in sommige gevallen wanneer de gegevens uitzonderlijk gevoelig zijn, onderzoekers moeten fysiek naar de datarepositories gaan om hun onderzoek te doen, onderzoek moeilijker en duurder maken.

Slavkovic is geïnteresseerd in netwerkdata. Informatie die de onderlinge verbondenheid van mensen of instellingen laat zien - de knooppunten - en de verbindingen tussen knooppunten. Haar benadering is om licht gewijzigde, gespiegelde netwerkdatasets met een paar van de knooppunten verplaatst, verbindingen verschoven of randen gewijzigd.

"Het doel is om nieuwe netwerken te creëren die voldoen aan de strenge differentiële privacyvereisten en tegelijkertijd de meeste statistische kenmerken van het oorspronkelijke netwerk vastleggen, ' zei Slavkovi.

Deze synthetische datasets kunnen voor sommige onderzoekers voldoende zijn om aan hun onderzoeksbehoeften te voldoen. Voor anderen, het zou voldoende zijn om hun benaderingen en hypothese te testen voordat ze naar de gegevensopslagsite moeten gaan. Onderzoekers kunnen code testen, doe verkennend onderzoek en misschien een basisanalyse terwijl je wacht op toestemming om de originele gegevens in de repository-site te gebruiken.

"We kunnen niet voldoen aan de vraag naar alle statistische analyses met hetzelfde type gewijzigde gegevens, " zei Slavkovic. "Sommige mensen hebben de originele gegevens nodig, maar anderen kunnen een lange weg gaan met synthetische gegevens zoals synthetische netwerken."