Geschatte root mean square error (RMSE) voor populatietellingen van een ras/etniciteitsgroep, op elk geografisch niveau. De RMSE kwantificeert de gemiddelde foutgrootte voor een bepaalde geografie voor een bepaalde geografische eenheid. Driehoeken voor RMSE geven aan dat de geschatte gemiddelde kwadratische fout negatief was en daarom op nul was ingesteld. Credit:Wetenschappelijke vooruitgang (2024). DOI:10.1126/sciadv.adl2524
Een klein team van politicologen, statistici en datawetenschappers van de Harvard University, New York University en Yale University heeft ontdekt dat het Amerikaanse Census Department, door over te stappen op een nieuwe methode om de privacy beter te beschermen, factoren heeft geïntroduceerd die de nauwkeurigheid in sommige gevallen verminderen. .
In hun artikel gepubliceerd in het tijdschrift Science Advances , beschrijft de groep hoe ze een bestand van Census-functionarissen hebben geanalyseerd om de nauwkeurigheid van openbaar beschikbare censusgegevens en hun resultaten te meten.
Voorafgaand aan de Amerikaanse volkstelling van 2020 maakten functionarissen van het US Census Bureau zich zorgen over de privacy van de mensen die antwoorden gaven op de volkstelling en kozen ervoor om de methode te veranderen waarmee zij de gegevensbeveiliging garandeerden.
De oude methode heette 'swapping'. Het ging om het uitwisselen van gegevens van mensen die in het ene blok van een stad woonden met mensen in een ander blok, waardoor werd voorkomen dat mensen op basis van hun gegevens konden worden geïdentificeerd. De nieuwe methode heet 'differentiële privacy' en houdt in dat aan elk stukje data dat wordt verzameld, wat het Bureau omschrijft als 'ruis' wordt toegevoegd.
Bij deze nieuwe poging kon het onderzoeksteam geen voorbeeld vinden van een externe entiteit die onderzoek deed om vast te stellen of de nieuwe methode inderdaad meer privacy bood of dat de verwerkte gegevens min of meer accuraat waren dan het geval was bij het gebruik van swapping. Dus begonnen ze er zelf een.
Het onderzoek begon toen het onderzoeksteam het Census Bureau vroeg om hen toegang te geven tot het zogenaamde luidruchtige meetbestand (NMF) – het bestand dat werd gebruikt voor de volkstelling van 2020. Het Bureau wees het verzoek af, wat ertoe leidde dat het team hen aanklaagde. Uiteindelijk werd de rechtszaak geseponeerd toen het Bureau ermee instemde het team de NMF te geven die betrokken was bij de veel kleinere volkstelling van 2010 – een die werd uitgevoerd als een manier om de nieuwe methode te testen en die zowel uitwisseling als differentiatie inhield.
De onderzoekers analyseerden dat bestand vervolgens als een manier om de impact op de nauwkeurigheid van de overstap naar het nieuwe systeem te bestuderen. Daarbij ontdekten ze dat de twee systemen over het algemeen ongeveer dezelfde nauwkeurigheid op grote schaal boden. Maar ze vonden ook bewijs van een vermindering van de nauwkeurigheid op blokniveau van een type dat negatieve gevolgen zou kunnen hebben voor minderheden en multiraciale bevolkingsgroepen.