science >> Wetenschap >  >> Elektronica

Een nieuwe benadering voor vergelijkende documentsamenvatting via classificatie

Een illustratief voorbeeld van vergelijkende samenvattingen. Vierkanten zijn nieuwsartikelen, rijen duiden verschillende nieuwsuitzendingen aan, en de x-as geeft de tijd aan. De gearceerde artikelen zijn gekozen om AI-gerelateerd nieuws te vertegenwoordigen in februari en maart 2018, respectievelijk. Ze zijn bedoeld om onderwerpen in elke maand samen te vatten en ook de verschillen tussen de twee maanden te benadrukken. Krediet:Bista et al.

Onderzoekers van de Australian National University (ANU) hebben onlangs een onderzoek uitgevoerd naar extractieve samenvattingen in vergelijkende settings. De term 'extractieve samenvatting' definieert de taak om uit een grote verzameling documenten enkele zeer representatieve artikelen te selecteren.

In hun krant voorgepubliceerd op arXiv en zal worden gepresenteerd op de 33e AAAI-conferentie over kunstmatige intelligentie, de onderzoekers beschouwden vergelijkende samenvattingen, wat de selectie van documenten uit verschillende documentverzamelingen met zich meebrengt. Deze geselecteerde documenten moeten representatief zijn voor elke groep, terwijl ook de verschillen tussen de groepen worden benadrukt.

Het project volgt een doorlopend thema bij ANU's Computational Media Lab, die zich richt op het geautomatiseerd begrijpen van grote hoeveelheden tekst- en beeldstromen op het sociale web. Een overkoepelend doel van het onderzoek is het identificeren van technieken die mensen kunnen helpen om te gaan met een overdaad aan informatie.

"Er is te veel nieuwe inhoud voor iedereen om te lezen:nieuws, sociale media-feeds, of zelfs de stroom van arXiv research papers, "Lexing Xie, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Kunnen we computers vragen om ons te helpen kiezen welke we willen lezen, en toch cruciale informatie ontvangen?"

Xie en haar collega's hebben manieren onderzocht om de honderdduizenden nieuwsartikelen samen te vatten, berichten en discussies online beschikbaar. Hun doel is om gebruikers een paar (bijvoorbeeld 3-4) items voor te stellen die het beste antwoord geven op de vraag 'wat is nieuw?' gedurende een bepaald tijdsbestek (bijvoorbeeld vandaag, deze week, enz.) of over een bepaald onderwerp (bijvoorbeeld klimaatverandering, verkiezingen, enzovoort.).

"Tekstsamenvatting is al bijna 20 jaar een actief onderzoeksveld, maar de belangrijkste focus was om één verzameling extractief samen te vatten (d.w.z. bestaande items te selecteren om een ​​samenvatting samen te stellen), of abstract (d.w.z. nieuwe zinnen samenstellen als samenvatting, in plaats van bestaande te gebruiken), Xie legde uit. "Dit werk richt zich op extractieve vergelijking van documentgroepen, d.w.z. het selecteren van een paar items uit een groep die het meest verschilt van andere groepen. Voor zover wij weten, ons werk is het eerste dat vergelijkende samenvattingen op schaal uitvoert en valideert."

In hun studie hebben de onderzoekers benaderden vergelijkende documentsamenvatting als een classificatietaak. Classificatie is een veelvoorkomende taak voor machine learning, waarin een algoritme gefundeerde gissingen maakt over in welke categorie of groepen bepaalde data-items thuishoren.

"In het geval van een vergelijkende samenvatting, als we goede samenvattingsartikelen hebben gekozen, zou het moeilijk moeten zijn, zo niet onmogelijk, een classificator ontwerpen die onderscheid kan maken tussen de gekozen samenvattingsartikelen en de groepen waartoe ze behoren; terwijl het gemakkelijk zou moeten zijn om een ​​classifier te ontwerpen die onderscheid kan maken tussen de gekozen samenvattingsartikelen en andere groepen, "Alexander Mathews, een andere onderzoeker die bij het onderzoek betrokken was, vertelde TechXplore.

Het classificatieperspectief van de onderzoekers omvat een alternatieve maar complementaire kijk op vergelijkende samenvattingen als drie concurrerende doelstellingen. Eerst, geselecteerde samenvattingsartikelen moeten representatief zijn voor de groepen waartoe ze behoren, die alle belangrijke aspecten van de documentverzameling omvat.

Tweede, elk gekozen samenvattend artikel moet relatief verschillen van de andere, om onnodige herhaling te voorkomen. Eindelijk, geselecteerde samenvattingsartikelen mogen alleen representatief zijn voor de groep waartoe ze behoren, aangezien dit een sleutelfactor is voor een effectieve vergelijkende samenvatting.

"Onze specifieke formulering van de drie doelstellingen is gebaseerd op een flexibele wiskundige maatstaf die de maximale gemiddelde discrepantie (MMD) wordt genoemd, Mathews legde uit. "Deze maatregel, samen met de toepassing van een wiskundig hulpmiddel genaamd 'de kerneltruc', kunnen we onze drie doelstellingen in een compacte wiskundige vorm gieten die we efficiënt kunnen optimaliseren, zelfs op enorme datasets. Bovendien, deze vorm maakt zowel discrete als op gradiënt gebaseerde optimalisatietechnieken mogelijk, waardoor de keuze van artikelen nauwkeurig kan worden afgestemd op onze doelstellingen."

Het classificatieperspectief van Mathews en zijn collega's stelde hen in staat om hun methode te evalueren als een classificatietaak, zowel automatisch als via crowdsourcing. Hun aanpak presteerde beter dan discrete en baseline-benaderingen in 15 van de 24 automatische evaluatie-instellingen. Bij crowdsourcing-evaluaties samenvattingen die werden geselecteerd met behulp van hun eenvoudige, op gradiënten gebaseerde optimalisatiestrategie, lokten 7% nauwkeuriger classificatie uit van menselijke werknemers dan discrete optimalisatiemethoden.

"We zijn blij om te zien dat het gebruik van slechts 4 samenvattingsartikelen per week de nauwkeurigheid van de automatische classificatie (van elk nieuwsartikel in de maand/week waar het vandaan kwam) vergelijkbaar is met een die alle artikelen 'leest', "Minjeong Shin, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Dit toont aan dat cruciale nieuwe informatie in de weinige 'prototype'-artikelen zit."

De onderzoekers evalueerden hun methode tegen andere benaderingen van een nieuw samengestelde verzameling controversiële nieuwsonderwerpen die meer dan 13 maanden duurden. Wanneer toegepast op de vergelijkende samenvatting van lopende contentstromen, hun systeem beantwoordde met succes vragen als 'wat is er deze maand nieuw op het gebied van klimaatverandering?', het benadrukken van verschillen tussen twee verschillende tijdsperioden.

"Onze methodologie is ook van toepassing op collectievergelijkingen anders dan nieuws in de tijd, " zei Shin. "Bijvoorbeeld, men kan zich afvragen:wat is het verschil tussen BBC- en CNN-verslaggeving van de G20-top, of hoe verschilt de berichtgeving over klimaatverandering tussen Britse en Australische media?"

In de toekomst, deze nieuwe benadering van vergelijkende samenvattingen zou gebruikers kunnen helpen bij het navigeren door de grote hoeveelheden online beschikbare informatie; het verstrekken van vergelijkingen van artikelen gepubliceerd door verschillende bronnen of auteurs, evenals van berichten over gerelateerde onderwerpen of het uiten van verschillende standpunten. De onderzoekers werken nu aan het uitbreiden van hun onderzoek door deze vergelijkingen naar een hoger niveau te tillen.

"We onderzoeken manieren om niet alleen tekst samen te vatten, maar ook beeld en tekst samen, "Umanga Bista, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "We willen ook rekening houden met bekende relaties van entiteiten die in de tekst worden genoemd (bijv. Delhi is de hoofdstad van India), in plaats van elk woord als een onafhankelijke entiteit te behandelen. uiteindelijk, we zouden graag een systeem hebben dat aanbeveelt wat nieuw is, wat is anders, en wat het lezen waard is."

© 2018 Wetenschap X Netwerk