Wetenschap
Krediet:CC0 Publiek Domein
Cornell-onderzoekers hebben een geautomatiseerd systeem ontwikkeld dat gebruikmaakt van machine learning, data-analyse en menselijke feedback om automatisch statistische beweringen over het nieuwe coronavirus te verifiëren.
"CoronaCheck, " op basis van lopend onderzoek van Immanuel Trummer, assistent-professor informatica, internationaal gelanceerd in maart en is al meer dan 9 gebruikt 600 keer. De database - nu beschikbaar in het Engels, Frans en Italiaans - controleert claims over de verspreiding van COVID-19 op basis van betrouwbare bronnen zoals de Wereldgezondheidsorganisatie en de Centers for Disease Control and Prevention.
"Er is veel te veel verkeerde informatie over het coronavirus op internet - het is behoorlijk verbijsterend, eigenlijk, Trummer zei. "Sommige van deze beweringen over verkeerde informatie zijn onschadelijk, maar andere – dingen als ‘zilver eten geneest het coronavirus’ – kunnen gevaarlijk zijn.”
Het CoronaCheck-systeem is een samenwerking tussen het team van Trummer, waaronder promovendi Georgios Karagiannis en Saehan Jo, en het team van Paolo Papotti bij Eurecom, een technische school in Biot, Frankrijk.
Vanwege de enorme hoeveelheid slechte informatie op internet - en de snelheid waarmee meer verkeerde informatie wordt geproduceerd en verspreid - is het voor mensen onmogelijk om het probleem op te lossen door alleen handmatige feitencontroles uit te voeren. Zelfs gemeenschappelijke geautomatiseerde benaderingen, die over het algemeen proberen nieuwe claims toe te wijzen aan bestaande factchecks, niet realistisch kan worden uitgevoerd op een schaal die groot genoeg is om de reikwijdte van desinformatie aan te pakken, zei Trummer.
"We hebben geprobeerd het hele proces te automatiseren, van de ruwe data tot de tekst die we willen verifiëren, ' zei Trummer.
CoronaCheck past "Scrutinizer, " een systeem dat Trummer samen met Eurecom ontwikkelde voor het Internationaal Energie Agentschap in Parijs, een niet-gouvernementele organisatie, om menselijke feitencontroles te ondersteunen bij het vertalen van tekstsamenvattingen in vergelijkingen die de computer kan begrijpen en oplossen. Om dit te doen, Scrutinizer maakt gebruik van machinaal leren en natuurlijke taalverwerking - een tak van kunstmatige intelligentie die gericht is op het ontcijferen van menselijke taal - evenals grote datasets die het systeem helpen erachter te komen hoe elke nieuwe claim moet worden aangepakt, en feedback van menselijke gebruikers.
"Computers hebben moeite om natuurlijke taal te begrijpen, " zei hij. "We kunnen de computer niet rechtstreeks vragen om te controleren of een bewering in een zin correct is of niet. We moeten dus in wezen de claim vanuit onze taal vertalen naar een zoektaal die de computer begrijpt."
Bijvoorbeeld, als iemand typt dat het aantal gevallen van coronavirus in Frankrijk hoger is dan in Italië, het systeem gebruikt een soort eliminatieproces om de mogelijke vergelijkingen voor die tekst te verfijnen. Het maakt gebruik van zijn datasets om een wiskundige uitdrukking te creëren die de bewering met de feiten kan vergelijken.
Vervolgens, gebaseerd op ervaring, het systeem bepaalt de beste bronnen om de claim te verifiëren, op basis van betrouwbare openbare gegevens die dagelijks worden verzameld door de Johns Hopkins University. Het machine learning-model van het systeem kan in de loop van de tijd ook verbeteren, nieuwe claimtypes leren herkennen op basis van gebruikersfeedback.
"Er is een enorme hoeveelheid verkeerde informatie en de reeks beweringen waar mensen naar kijken is behoorlijk divers, ' zei Trummer. 'Voor elke claim, er is een zeer groot aantal mogelijke query-uitdrukkingen, en ons doel is om de juiste te vinden."
De database-interface bouwt voort op het gerelateerde werk van Trummer, inclusief AggChecker, de eerste tool om automatisch tekstsamenvattingen van datasets te verifiëren door een relationele database te doorzoeken. AggChecker werd gepresenteerd op de jaarlijkse conferentie van de Association for Computing Machinery's Special Interest Group on Management of Data's jaarlijkse conferentie in 2019.
Zijn team heeft in samenwerking met Google NYC ook een "Anti-Knowledge Base" met veelvoorkomende feitelijke fouten van Wikipedia ontwikkeld. Het onderzoek achter CoronaCheck is mede mogelijk gemaakt door een Google Faculty Research Award.
Wetenschap © https://nl.scienceaq.com