science >> Wetenschap >  >> anders

Onderzoekers evalueren wijzigingen in gegevensprivacy van de volkstelling in 2020

Krediet:CC0 Publiek Domein

Nadat het US Census Bureau had aangekondigd dat het de manier waarop het de identiteit van individuen beschermt voor de 2020 Census aan het veranderen was, een door Penn State geleid onderzoeksteam begon te evalueren hoe deze veranderingen de integriteit van volkstellinggegevens kunnen beïnvloeden.

Het Census Bureau stelt voor om gebruik te maken van differentiële privacy, een nieuwe methode die probeert de identiteit van individuen te beschermen bij het publiceren van openbare gegevens. Censusgegevens worden gebruikt om federale financiering te verdelen die van invloed is op gemeenschappen en ook bepalend is voor de vertegenwoordiging van het congres.

Alexis Santos, assistent-professor menselijke ontwikkeling en familiestudies aan Penn State, samen met onderzoekers Jeffrey Howard, assistent-professor aan de Universiteit van Texas in San Antonio, en Ashton Verdery, universitair docent sociologie, demografie, en sociale data-analyse bij Penn State, onderzochten sterftecijfers in 2010. De onderzoekers vergeleken beide methoden van privacybescherming en de implicatie van deze verandering om de gezondheidsverschillen in de Verenigde Staten beter te begrijpen. Het werk is onlangs gepubliceerd in Proceedings van de National Academy of Sciences .

Het onderzoeksteam ontdekte dat wanneer de differentiële privacymethode werd gebruikt op Census-gegevens, het veroorzaakte dramatische veranderingen in de bevolkingsaantallen voor raciale en etnische minderheden in vergelijking met de traditionele methoden.

"We hebben ons gericht op schattingen van sterftecijfers omdat ze een essentiële maatstaf zijn op populatieniveau waarvoor gegevens op nationaal niveau worden verzameld en verspreid en omdat sterftecijfers een kritieke indicator zijn voor de gezondheid van de bevolking, ' zei Santos.

Het onderzoeksteam onderzocht vervolgens de veranderingen in sterftecijfers als gevolg van de twee systemen voor het vermijden van openbaarmaking door middel van grootstedelijke classificaties.

"We ontdekten dat door gebruik te maken van differentiële privacy, er waren zowel gevallen van onder- als overtelling van de bevolking. In landelijke gebieden, er was een ondertelling van raciale en etnische minderheden, terwijl er in stedelijke gebieden sprake was van een overtelling van deze populaties, ' zei Santos.

De onderzoekers ontdekten dat sommige discrepanties tussen de twee methoden van data-analyse een verschil van meer dan 10% overschreden.

"Dit is zeer zorgwekkend omdat het van invloed kan zijn op hoeveel financieringsprogramma's ontvangen voor een specifiek geografisch gebied, "zei Santos. "Deze discrepanties kunnen in sommige gebieden leiden tot ondergewaardeerde gezondheidsrisico's, en terwijl overdrijven in anderen waar er geen grote behoefte is."

Volgens Santos, de bevindingen benadrukken de gevolgen van het implementeren van differentiële privacy en demonstreren de uitdagingen bij het gebruik van de dataproducten die van deze methode zijn afgeleid.

"Het Census Bureau is zeer ontvankelijk geweest voor ons onderzoek, en blijk gegeven van bezorgdheid over de nauwkeurigheid van de gegevens, " zei Santos. "We zijn van plan om verder te gaan met aanvullend onderzoek om te bepalen hoe differentiële privacy schattingen van de bevolkingsgroei en bevolkingsveranderingen van tellingsjaar tot tellingsjaar kan beïnvloeden. We hebben nog tijd om het differentiële privacy-algoritme te verfijnen, en ons onderzoek zal helpen om verbeterpunten vast te stellen."