Wetenschap
Krediet:CC0 Publiek Domein
Het is niet verwonderlijk dat consumentengegevens continu worden verzameld door verschillende organisaties, inclusief lokale overheden, marketingbureaus en social media bedrijven. Deze organisaties verzekeren anonimiteit en vertrouwelijkheid bij het verzamelen van deze gegevens, echter, bestaande gegevensprivacywetten garanderen niet dat er geen datalekken zullen plaatsvinden. Volgens een recent rapport, meer dan 2, Alleen al in 2019 vonden er 000 bevestigde datalekken plaats, met 34% van die uitgevoerd door interne actoren zoals werknemers. Om daaraan toe te voegen, Stads- en overheidsinstanties verzamelen gevoelige gegevens die ze wettelijk verplicht zijn te delen met het publiek - met dank aan Open Data-bewegingen en de Freedom of Information Act.
Gegevensprivacywetten vereisen versleuteling en, in sommige gevallen, het transformeren van de originele gegevens naar "beschermde gegevens" voordat deze worden vrijgegeven aan externe partijen. Maar voor onderzoekers als Matthew Schneider, doctoraat, een assistent-professor van Decision Sciences en Management Information Systems aan het LeBow College of Business van de Drexel University, dit is niet voldoende.
"Encryptie helpt zeker, maar het voorkomt geen datalek, " zei hij. "Het is vergelijkbaar met het beveiligen van je e-mailwachtwoord. Een interne actor met toegang tot de encryptiesleutel kan gemakkelijk een datalek veroorzaken. Het is conservatiever vanuit een risicoperspectief om aan te nemen dat alle gegevens uiteindelijk naar buiten zullen komen en moeten worden getransformeerd voordat ze ergens binnen de organisatie worden gedeeld."
In een recent artikel gepubliceerd in de Journal of Marketing Analytics , Schneider en Dawn Iacobucci, doctoraat, van de Vanderbilt-universiteit, stelde een nieuwe methode voor die onderzoeksdatasets permanent wijzigt om de privacy van consumenten te beschermen -wanneer gegevens worden gedeeld- terwijl toch een niveau van redelijke nauwkeurigheid voor deze datasets behouden blijft.
Volgens de auteurs is enquêtegegevens worden vaak binnen organisaties bewaard en gebruikt voor doeleinden die verder gaan dan de oorspronkelijke reden voor het verzamelen van de gegevens. "Databases en klantinformatie zijn een hedendaags bezit geworden dat het ene bedrijf aantrekkelijk maakt voor het andere bij het smeden van allianties, "Zei Schneider. "Zelfs bedrijven met hoge normen voor gegevensbeveiliging kunnen het een uitdaging vinden om de privacy van consumentengegevens te beschermen."
Een andere, minder vaak voorkomende, maar al te echt, bedreiging, volgens de auteurs zijn gevallen waarin werknemers op illegale wijze gegevens van hun voormalige bedrijf hebben meegenomen naar een functie bij een nieuwe werkgever - om redenen variërend van het verkrijgen van een gunstige indruk bij het nieuwe bedrijf, om het oude bedrijf te schaden, om de gegevens zelfs als voorwaarde voor de jobaanbieding te moeten verstrekken.
Voor Schneider, de oplossing voor het nakomen van beloften op het gebied van gegevensprivacy blijkt een technologische oplossing te zijn.
"Enquêtegegevens worden steeds vaker gebruikt voor analyses op respondentniveau, zoals in koppeling met andere propriëtaire datasets, en beloften van privacy kunnen mogelijk niet worden gegarandeerd in het talloze daaropvolgende gebruik van de gegevens, " zei Schneider. "Vertrouwelijkheid is geen garantie voor anonimiteit. Er zijn ongeveer drie of vier zorgvuldig gestelde vragen in een enquête nodig om iemand uniek te identificeren."
In de krant, de auteurs analyseerden een onderzoeksdataset die in 2015 werd verzameld door de stad Austin, Texas en vrijgegeven voor het publiek na een Open Data-beweging. Andere steden hebben vergelijkbare bewegingen, waaronder New York en Philadelphia.
"Er zijn veel privacyrisico's in Open Data, omdat ze privacy niet zo goed doen als de federale overheid die het grote budget en de middelen heeft om statistici in te huren, economen of computerwetenschappers om dit technologische probleem aan te pakken, "zei Schneider. "Bescherming hangt vaak af van hoe de gegevens worden gebruikt."
De stad Austin heeft een enquête afgenomen bij 2, 614 Aziatische Amerikanen die in de stad wonen om de gezondheids- en servicebehoeften van een van de snelstgroeiende bevolkingsgroepen van de stad te onderzoeken, met als doel een hogere mate van gemeenschapsbetrokkenheid te creëren, beleid en om middelen te identificeren om in de behoeften van de Aziatisch-Amerikaanse gemeenschap te voorzien. Ambtenaren in Austin plaatsten hun datasets, zoals gevraagd, om ze gemakkelijk beschikbaar te maken voor gebruikers.
In één onderzoeksdataset, elke respondent werd gevraagd naar hun etnische afkomst, die 32 categorieën had; leeftijd, die 77 categorieën had; postcode, die 61 categorieën had; en geslacht.
"Bijna iedereen is identificeerbaar met deze vier variabelen - sommige meer dan andere, "zei Schneider. "Als je ze eenmaal identificeert, dit onderzoek bracht andere gevoelige antwoorden aan het licht, zoals de arbeidsstatus, religieuze overtuiging, huishoudelijk inkomen, betaalbaarheid van huisvesting en veel houdingsvragen. "
evenzo, New York City ondervond een Open Data-probleem met de New York City Taxi and Limousine Commission, waarbij 124 miljoen rijroutes konden worden herleid tot het thuisadres van een chauffeur.
Een grote uitdaging bij het overwegen van methoden om deelnemersgegevens effectief te wijzigen, is om dit te doen op een manier die de nauwkeurigheid van de onderzoeksresultaten niet veel verandert. De door de auteurs voorgestelde methode, is gebouwd op een techniek die wordt gevonden in toepassingen voor genomische sequencing die de identiteit van consumenten kon verbergen terwijl de nauwkeurigheid van inzichten binnen 5% bleef.
"Onze methode zou in wezen de demografische gegevens in een onderzoeksdataset 'schudden', "zei Schneider. "Maar, in tegenstelling tot eerdere methoden, die van ons schudt alleen gegevens wanneer het de correlaties handhaaft tussen belangrijke variabelen die essentieel zijn voor analisten. De afgeschermde data wordt gesimuleerd op consumentenniveau maar is toch waardevol voor de eindgebruiker. Als deze dataset uitkwam, dan zouden alleen de inzichten van de organisatie bekend zijn."
De krant, "Enquêtegegevens beschermen op consumentenniveau, " werd gepubliceerd in de Journal of Marketing Analytics en is beschikbaar via deze link. Details over de nieuwe methodologie zijn opgenomen in het document.
Wetenschap © https://nl.scienceaq.com