Wetenschap
“We kijken naar de crisis zoals die zich voordoet, ', zei Prasenjit Mitra. “De beste bron om tijdig informatie te krijgen tijdens een ramp zijn sociale media, vooral microblogs zoals Twitter. Krediet:Thinkstock
Twitter-gegevens kunnen rampenhulpteams realtime informatie geven om hulp te bieden en levens te redden, dankzij een nieuw algoritme ontwikkeld door een internationaal team van onderzoekers.
Een team van onderzoekers uit Penn State, het Indiase Instituut voor Technologie Kharagpur, en het Qatar Computing Research Institute creëerde een algoritme dat Twitter-gegevens analyseert om kleinere rampgerelateerde gebeurtenissen te identificeren, bekend als subgebeurtenissen, en genereren zeer nauwkeurige, realtime samenvattingen die kunnen worden gebruikt om responsactiviteiten te begeleiden.
De groep presenteerde hun paper - "Identifying Sub-events and Summarizing Information from Microblogs during Disasters" - vandaag (10 juli) op de 41st International Association for Computing Machinery's Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval in Ann Arbor , Michigan.
"We kijken naar de crisis zoals die zich voordoet, " zei Prasenjit Mitra, associate dean voor onderzoek in Penn State's College of Information Sciences and Technology en een bijdrage aan de studie.
"De beste bron om tijdig informatie te krijgen tijdens een ramp zijn sociale media, met name microblogs zoals Twitter, " zei Mitra. "Kranten moeten nog worden gedrukt en blogs moeten nog worden gepubliceerd, dus Twitter zorgt voor een bijna realtime weergave van een evenement van degenen die erdoor worden beïnvloed."
Door deze gegevens te analyseren en te gebruiken om rapporten te genereren met betrekking tot een subonderwerp van een ramp, zoals schade aan de infrastructuur of onderdakbehoeften, kunnen humanitaire organisaties beter inspelen op de uiteenlopende behoeften van individuen in een getroffen gebied.
Gezien de hoeveelheid geproduceerde gegevens, het handmatig managen van dit proces in de onmiddellijke nasleep van een crisis is niet altijd praktisch. Er is ook vaak behoefte aan unieke updates met betrekking tot bepaalde onderwerpen binnen en tussen organisaties.
"Verscheidene werken aan rampspecifieke samenvattingen hebben de afgelopen tijd algoritmen voorgesteld die meestal een algemene samenvatting van het hele evenement geven, schreven de onderzoekers in hun paper. "Echter, verschillende belanghebbenden, zoals reddingswerkers, overheidsinstellingen, veldexperts, [en] gewone mensen hebben verschillende informatiebehoeften."
In de studie, de groep verzamelde meer dan 2,5 miljoen tweets die werden gepost tijdens drie grote wereldwijde rampen:tyfoon Hagupit die de Filippijnen trof in 2014, de overstroming van 2014 in Pakistan, en de aardbeving van 2015 in Nepal. Vervolgens, vrijwilligers van het United Nations Office for the Coordination of Humanitarian Affairs hebben een machine learning-systeem getraind door de tweets handmatig te categoriseren in verschillende subgebeurtenissen, zoals eten, geneeskunde en infrastructuur.
Zodra het systeem tweets met een hoge mate van nauwkeurigheid kan identificeren, de onderzoekers stellen het systeem in staat om grote hoeveelheden gegevens snel en nauwkeurig te categoriseren zonder menselijke tussenkomst. Naarmate de gebeurtenissen zich ontwikkelen, echter, er verschijnen nieuwe inhoudscategorieën waarvoor het proces opnieuw moet worden gestart.
"Op een bepaald moment, er is een verschuiving in het onderwerp. Onderwerpen verschuiven van onmiddellijke reactie, zoals mensen in de val zitten, tot aanhoudende neerslag, zoals ziekten of transportproblemen, " legde Mitra uit. "Als het onderwerp verandert, we observeren de nauwkeurigheid van de machine. Als het onder een bepaalde drempel komt, de taskforce categoriseert handmatig meer tweets om de machine verder te onderwijzen."
Hun "Dependency-Parser-based SUB-event detectie" algoritme, bekend als DEPSUB, identificeerde zelfstandig naamwoord-werkwoordparen die subonderwerpen vertegenwoordigen, zoals "brug instorten" of "persoon gevangen" - en rangschikten ze op basis van hoe vaak ze in tweets voorkomen. Vervolgens, ze creëerden een algoritme om samenvattingen te schrijven over de brede gebeurtenis en de geïdentificeerde subgebeurtenissen. Eindelijk, menselijke evaluatoren plaatsten het nut en de nauwkeurigheid van subgebeurtenissen die door DEPSUB werden geïdentificeerd en automatisch gegenereerde samenvattingen in vergelijking met die die met andere bestaande methoden werden gecreëerd.
De beoordelaars vonden zowel DEPSUB als hun samenvattende algoritme relevanter, nuttig en begrijpelijk in vergelijking met andere toonaangevende algoritmen. In de toekomst, de onderzoekers hopen hun werk toe te passen op gespecialiseerde situaties, zoals het samenvatten van informatie over vermiste personen, en het halen van specifieke informatie uit tweets die een meer grondige beschrijving en visualisatie van een evenement kunnen creëren.
"Met een goed getraind systeem, menselijke tussenkomst is niet nodig om Twitter-gegevens te categoriseren of samen te vatten, ", aldus Mitra. "Dit geautomatiseerde systeem is een eerste stap om hulpverleners een steiger te geven die ze kunnen verfijnen om een beter totaaloverzicht van een evenement te maken, evenals het nemen van een meer enger toegesneden weergave van een deel van dat grotere evenement."
Wetenschap © https://nl.scienceaq.com