science >> Wetenschap >  >> anders

Data hashing verbetert schatting van het aantal slachtoffers in databases

Vernietigde tanks voor een moskee in Azaz, Syrië, in 2012. Krediet:Christiaan Triebert via Wikimedia Commons

Onderzoekers van Rice University en Duke University gebruiken de tools van statistiek en datawetenschap in samenwerking met Human Rights Data Analysis Group (HRDAG) om nauwkeurig en efficiënt het aantal geïdentificeerde slachtoffers te schatten die zijn omgekomen in de Syrische burgeroorlog.

In een paper dat online beschikbaar is en naar verwachting zal worden gepubliceerd in het juninummer van de Annalen van toegepaste statistiek , de wetenschappers rapporteren over een vier jaar durende inspanning om een ​​data-indexeringsmethode genaamd "hashing met statistische schatting" te combineren. De nieuwe methode produceert realtime schattingen van gedocumenteerde, identificeerde slachtoffers met een veel lagere foutenmarge dan bestaande statistische methoden voor het vinden van dubbele records in databases.

"Het weggooien van dubbele records is eenvoudig als alle gegevens schoon zijn - namen zijn compleet, spelling is correct, datums zijn exact, enzovoort., " zei studie co-auteur Beidi Chen, een Rice afgestudeerde student in computerwetenschappen. "De gegevens over oorlogsslachtoffers zijn niet zo. Mensen gebruiken bijnamen. Datums zijn soms opgenomen in een database, maar ontbreken in een andere. Het is een klassiek voorbeeld van wat we een 'lawaaierige' dataset noemen. De uitdaging is om een ​​manier te vinden om ondanks deze ruis nauwkeurig het aantal unieke records inschatten."

Met behulp van records uit vier databases van mensen die zijn omgekomen in de Syrische oorlog, Chen, Duke-statisticus en machine learning-expert Rebecca Steorts en Rice-computerwetenschapper Anshumali Shrivastava schatten dat er 191, 874 unieke individuen gedocumenteerd van maart 2011 tot april 2014. Dat is heel dicht bij de schatting van 191, 369 samengesteld in 2014 door HRDAG, een non-profitorganisatie die helpt bij het bouwen van wetenschappelijk verdedigbare, wetenschappelijk onderbouwde argumenten voor mensenrechtenschendingen.

Maar terwijl de schatting van HRDAG was gebaseerd op de moeizame inspanningen van menselijke arbeiders om mogelijke dubbele records zorgvuldig te verwijderen, hashen met statistische schatting bleek sneller te zijn, makkelijker en goedkoper. De onderzoekers zeiden dat hashing ook het belangrijke voordeel had van een scherp betrouwbaarheidsinterval:het foutenbereik is plus of min 1, 772, of minder dan 1 procent van het totale aantal slachtoffers.

"De grote winst van deze methode is dat we snel het waarschijnlijke aantal unieke elementen in een dataset met veel duplicaten kunnen berekenen, " zei Patrick Bal, HRDAG's onderzoeksdirecteur. "Met deze schatting kunnen we veel doen."

Shrivastava zei dat de scherpte van de hashing-schatting te wijten is aan de techniek die wordt gebruikt om de slachtoffergegevens te indexeren. Hashing omvat het converteren van een volledig gegevensrecord - een naam, datum, plaats van overlijden en geslacht in het geval van elk Syrisch oorlogsslachtoffer - in één getal dat een hash wordt genoemd. Hashes worden geproduceerd door een algoritme dat rekening houdt met de alfanumerieke informatie in een record, en ze worden opgeslagen in een hashtabel die ongeveer hetzelfde werkt als de index in een boek. Hoe meer tekstuele overeenkomst er is tussen twee records, hoe dichter bij elkaar hun hashes in de tabel staan.

"Onze methode - unieke schatting van de entiteit - kan nuttig blijken te zijn buiten alleen het Syrische conflict, zei Steorts, assistent-professor statistische wetenschappen aan Duke.

Ze zei dat het algoritme en de methodologie gebruikt kunnen worden voor medische dossiers. officiële statistieken en industriële toepassingen.

"Naarmate we meer en meer gegevens verzamelen, duplicatie wordt een actueler en maatschappelijk belangrijker probleem, "Zei Steorts. "Entiteitsoplossingsproblemen moeten worden opgeschaald naar miljoenen en miljarden records. Natuurlijk, de meest nauwkeurige manier om dubbele records te vinden, is door een expert elk record te laten controleren. Maar dit is onmogelijk voor grote datasets, aangezien het aantal paren dat moet worden vergeleken dramatisch groeit naarmate het aantal records toeneemt."

Bijvoorbeeld, een record-voor-record analyse van alle vier de Syrische oorlogsdatabases zou ongeveer 63 miljard gepaarde vergelijkingen opleveren, ze zei.

Shrivastava, assistent-professor informatica bij Rice, zei, "Als je aannames doet, zoals datums die dicht bij elkaar liggen, kunnen duplicaten zijn, u kunt het aantal benodigde vergelijkingen verminderen, maar elke veronderstelling komt met een vooroordeel, en uiteindelijk wilt u een onbevooroordeelde schatting. Een statistische benadering die vertekening vermijdt, is willekeurige steekproeven. Dus kies misschien 1 miljoen willekeurige paren uit de 63 miljard, kijk hoeveel duplicaten zijn en pas dat percentage vervolgens toe op de hele dataset. Dit levert een onpartijdige schatting op, wat goed is, maar de kans om puur willekeurig duplicaten te vinden is vrij laag, en dat geeft een hoge variantie.

"In dit geval, bijvoorbeeld, willekeurige steekproeven zouden de gedocumenteerde tellingen ook kunnen schatten op ongeveer 191, 000, ' zei hij. 'Maar het kon ons niet met zekerheid zeggen of de telling 176 was, 000 of 216, 000 of een getal daartussenin.

"In het recente werk mijn lab heeft aangetoond dat hashing-algoritmen die oorspronkelijk zijn ontworpen om te zoeken, ook kunnen worden gebruikt als adaptieve samplers die de hoge variantie die gepaard gaat met willekeurige steekproeven precies verminderen, ' zei Shrivastava.

"Elk duplicaat oplossen lijkt erg aantrekkelijk, " hij zei, "maar het is de moeilijkere manier om het aantal unieke entiteiten te schatten. De nieuwe theorie van adaptieve steekproeven met hashing stelt ons in staat om het aantal unieke entiteiten direct efficiënt te schatten, met veel vertrouwen, zonder de duplicaten op te lossen."

"Aan het einde van de dag, het was fenomenaal om methodologische en algoritmische vooruitgang te boeken, gemotiveerd door zo'n belangrijk probleem, "Zei Steorts. "HRDAG heeft de weg geplaveid. Ons doel en onze hoop is dat onze inspanningen nuttig zullen zijn voor hun werk."

Shrivastava en Steorts zeiden dat ze toekomstig onderzoek plannen om de hashing-techniek voor unieke entiteitsbenadering toe te passen op andere soorten datasets.