science >> Wetenschap >  >> Elektronica

Debat over nieuwe censusprivacymaatregelen gaat voorbij aan grotere problemen met gegevensfouten in Titel I-financiering

Krediet:Pixabay/CC0 publiek domein

Er is controverse rond de nieuwe maatregelen van het US Census Bureau om de privacy te beschermen, maar een nieuwe studie onderzoekt hoe bestaande gegevensfouten een nog groter probleem kunnen vormen voor evidence-based beleid. De hoeksteen van de bijgewerkte privacymaatregelen van het Census Bureau, differentiële privacy, vereist het injecteren van statistische onzekerheid of ruis bij het delen van gevoelige gegevens. Geleerden, politici en activisten hebben hun bezorgdheid geuit over het effect van dit geluid op cruciaal gebruik van volkstellingsgegevens. Toch zien de meeste analyses van afwegingen rond differentiële privacy diepere onzekerheden in volkstellingsgegevens over het hoofd. In een nieuwe studie onderzochten onderzoekers hoe onderwijsbeleid dat censusgegevens gebruikt, middelen verkeerd toewijst als gevolg van statistische onzekerheid.

Uit de studie bleek dat verkeerde toewijzingen als gevolg van ruis die voor privacy worden geïnjecteerd, klein of verwaarloosbaar kunnen zijn, in vergelijking met verkeerde toewijzingen als gevolg van bestaande bronnen van gegevensfouten, zoals verkeerde rapportage of non-respons. Maar uit de studie blijkt ook dat eenvoudige beleidshervormingen kunnen helpen bij het financieren van formules om ongelijke verdeling van onzekerheid door gegevensfouten aan te pakken en de weg vrij te maken voor nieuwe privacybeschermingen, waardoor een compromis kan worden bereikt tussen gericht beleid, rechtvaardigheid en betere privacybescherming.

De studie, uitgevoerd door onderzoekers van de Carnegie Mellon University (CMU) en gepubliceerd in Science , richt zich op titel I van de wet op het basis- en secundair onderwijs, die financiële steun biedt aan schooldistricten met een groot aantal kinderen uit gezinnen met een laag inkomen om ervoor te zorgen dat alle kinderen voldoen aan de staatsnormen voor onderwijs. Federale fondsen worden toegewezen via formules die voornamelijk gebaseerd zijn op Census-ramingen van armoede en de kosten van onderwijs in elke staat. In 2021 heeft de Amerikaanse regering meer dan $ 16,5 miljard aan titel I-fondsen toegeëigend aan meer dan 13.000 schooldistricten en andere lokale onderwijsinstellingen.

In deze studie gebruikten onderzoekers een exacte simulatie van het Titel I-toewijzingsproces om de beleidseffecten van ruis die wordt geïnjecteerd voor privacy te vergelijken met de effecten van bestaande statistische onzekerheid. In het bijzonder vergeleken ze de impact van gekwantificeerde datafouten en van een mogelijk differentieel privaat ruisinjectiemechanisme. Van de $ 11,7 miljard in titel I-fondsen van 2021 die deze studie onderzocht, werd bijvoorbeeld $ 1,06 miljard toegewezen aan sommige districten in een gemiddelde uitvoering van de simulatie vanwege alleen gegevensfouten. Dit cijfer steeg met slechts $ 50 miljoen toen de onderzoekers ruis injecteerden om een ​​relatief sterke privacybescherming te bieden.

"We hebben speciale aandacht besteed aan de manier waarop Titel I impliciet de negatieve effecten van statistische onzekerheid op gemarginaliseerde groepen concentreert", legt Ryan Steed, een Ph.D. student aan het Heinz College van CMU, die de studie leidde. "Het verzwakken van de privacybescherming helpt deze groepen weinig, en voor hen kan deelname aan een Census-enquête bijzonder riskant zijn."

De resultaten laten zien dat verkeerde toewijzingen als gevolg van statistische onzekerheid in het bijzonder gemarginaliseerde groepen benadelen (bijv. Zwarte en Aziatische studenten; districten met grote populaties Latijns-Amerikaanse studenten). Of een demografische groep financiering verloor, hing af van het feit of de leden ervan de neiging hadden om in wijken met veel of weinig armoede te wonen, ook in dichtere, meestal stedelijke wijken.

"We hebben echter ook beleidshervormingen geïdentificeerd die de uiteenlopende effecten van zowel gegevensfouten als privacymechanismen kunnen verminderen", merkt Steven Wu op, assistent-professor aan de CMU's School of Computer Science. "Door bijvoorbeeld meerjarige gemiddelden te gebruiken in plaats van schattingen van een enkel jaar, werden zowel de algehele verkeerde toewijzing als de verschillen in resultaten verminderd."

Onder de beperkingen van de studie wijzen de auteurs erop dat hun studie geen rekening houdt met systematische ondertellingen en vele andere niet-gekwantificeerde vormen van statistische onzekerheid die van invloed zijn op armoedeschattingen, inclusief eerdere maatregelen om de privacy te beschermen, zoals gegevensuitwisseling.

"Onze resultaten suggereren dat de impact van differentiële privacy ten opzichte van andere bronnen van fouten in censusgegevens minimaal zou kunnen zijn", merkt Alessandro Acquisti op, hoogleraar informatietechnologie en openbaar beleid aan het Heinz College van CMU, die co-auteur van het onderzoek was. "Het simpelweg erkennen van de effecten van gegevensfouten kan het toekomstige beleidsontwerp voor zowel financieringsformules als het vermijden van openbaarmaking verbeteren." + Verder verkennen

Differentiële privacy de juiste keuze voor de 2020 US Census