science >> Wetenschap >  >> Elektronica

Een neuraal netwerk om goed geïnformeerde fragmenten en documenten te extraheren

Structuur van het voorgestelde model. Krediet:Zhou et al.

Elke dag, miljoenen artikelen worden gepubliceerd op sociale media en andere platforms, enorme hoeveelheden klikken en shares ontvangen van gebruikers die op internet navigeren. Veel van deze artikelen bevatten nuttige informatie die, indien geëxtraheerd, kan worden gebruikt om kennisdatabases samen te stellen of om diensten voor het ophalen van kennis en het beantwoorden van vragen te leveren.

Onderzoekers van de Chinese Academie van Wetenschappen (CAS) hebben een op convolutioneel neuraal netwerk (CNN) gebaseerd model ontwikkeld om goed geïnformeerde fragmenten te extraheren en documenten te annoteren. hun methode, geschetst op een paper dat vooraf is gepubliceerd op arXiv, bleek beter te presteren dan bestaande tools, ondanks dat ze voor kortere tijd getraind zijn.

In hun krant de onderzoekers definiëren de term "kennisdocument" als "een document dat meerdere kennisfragmenten bevat, die concepten beschrijven, eigenschappen van entiteiten, of de relaties tussen entiteiten." Tot dusver, de meeste kennisbanken, zoals YAGO of DBpedia, kennis extraheren op basis van Wikipedia, WordNet, GeoNamen, en andere online bronnen. Echter, in vergelijking met sociale mediaplatforms, deze bronnen bevatten vaak beperkte en inflexibele informatie.

"Een andere recente kennisbank, Probaal, met 2,7 miljoen concepten, werd automatisch gebruikt uit het tot nu toe grootste corpus, bestaande uit 326 miljoen goed geïnformeerde zinnen geëxtraheerd uit 1,68 miljard webpagina's, schreven de onderzoekers in hun paper. "Echter, deze zinnen worden alleen geëxtraheerd door de Hearst-patronen. Voor het extraheren van fragmenten met meer kennis om uitgebreidere kennisbanken te bouwen, semantisch gebaseerde methoden zijn nodig om de eerdere op patronen gebaseerde methoden aan te vullen."

Voorbeeld van een goed geïnformeerd document. De blauwe en rode zinnen zijn respectievelijk goed geïnformeerde en onwetende fragmenten. Het document introduceert de 25 tips voor het kopen van onroerend goed. Krediet:Zhou et al.

Kennisfragmenten en artikelen kunnen ook worden gebruikt om diensten voor het ophalen van kennis en het beantwoorden van vragen te ontwikkelen. Deze diensten zouden bijvoorbeeld, beantwoorden van vragen van gebruikers die hulp zoeken bij een bepaald probleem. Met deze toepassingen in het achterhoofd, de onderzoekers van CAS wilden een op CNN gebaseerd model ontwikkelen dat de semantiek van een document kan analyseren, bepalen of het goed geïnformeerd is of niet, en er goed geïnformeerde fragmenten van informatie uit halen.

"Specifiek, wij stellen SSNN voor, een gezamenlijk op CNN gebaseerd model, om samen het abstracte concept van documenten in verschillende domeinen te begrijpen en te beoordelen of een document deskundig is of niet, " leggen de onderzoekers uit in hun paper. "Meer in detail, de netwerkstructuur van SSNN is 'low-level Sharing, splitsen op hoog niveau, " waarin de lagen op laag niveau worden gedeeld voor verschillende domeinen, terwijl de lagen op hoog niveau buiten de CNN afzonderlijk worden getraind om de verschillen van verschillende domeinen waar te nemen."

Het door de onderzoekers bedachte model biedt een end-to-end oplossing voor het annoteren van documenten die geen uitgebreide en tijdrovende feature engineering met zich meebrengt. Ze ontwikkelden ook handmatige functies en trainden een SVM-classificatiemodel om de taak te voltooien.

Voorbeeld van een goed geïnformeerd document. De blauwe en rode zinnen zijn respectievelijk goed geïnformeerde en onwetende fragmenten. Het document introduceert de draaivaardigheden van het autorijden. Krediet:Zhou et al.

De onderzoekers evalueerden de effectiviteit van hun model op een dataset van echte documenten uit drie inhoudsdomeinen op WeChat, een Chinees bericht, social media en mobiel betalingsplatform ontwikkeld door Tencent. Hun bevindingen waren veelbelovend, waarbij de SSNN consistent beter presteert dan andere CNN-modellen, terwijl u tijd en geheugen bespaart dankzij kortere en efficiëntere trainingsprocessen.

"Vergeleken met het bouwen van meerdere domeinspecifieke CNN's, dit gezamenlijke model bespaart niet alleen kritisch trainingstijd, maar verbetert ook de voorspellingsnauwkeurigheid zichtbaar, " schreven de onderzoekers in hun paper. "De superioriteit van het voorgestelde model wordt aangetoond in een echte dataset van openbare Wechat-platforms."

In de toekomst, het in deze studie voorgestelde SSNN-model zou kunnen worden gebruikt om uitgebreidere kennisdatabases te bouwen. Het zou ook kunnen helpen bij de ontwikkeling van innovatieve diensten die vragen van gebruikers zowel snel als volledig in realtime beantwoorden.

© 2018 Tech Xplore