science >> Wetenschap >  >> Elektronica

Headers met koppeltekens voor datamining:verbetering van de herkenning van entiteiten op naam

Krediet:CC0 Publiek Domein

Datamining en extractie van kennis uit verschillende bronnen is big data, grote zaken. Maar, hoe gaat de zoeksoftware om met entiteiten die worden genoemd waar slechts een deel van hun naam wordt gebruikt of een naam wordt afgebroken terwijl dit normaal niet het geval is? Onderzoek gepubliceerd in de International Journal of Intelligent Information and Database Systems onthult details van een nieuwe benadering voor het verbeteren van de herkenning en het ondubbelzinnig maken van benoemde entiteiten in nieuwskoppen.

Jayendra Barua en Rajdeep Niyogi van de afdeling Computerwetenschappen en Engineering, aan het Indiase Instituut voor Technologie, in Roorkee, Uttarakhand, Indië, uitleggen dat hun benadering van een dergelijke analyse van actuele nieuwskoppen voortbouwt op een getraind algoritme dat is geleerd om de koppeltekens te verwijderen en onvolledige namen aan te vullen om dubbelzinnigheid te verwijderen.

De evaluatie door het team van hun nieuwe aanpak laat zien dat het ongeveer 10 procent nauwkeuriger werkt dan conventionele systemen en dus het automatisch ophalen van nieuws geassocieerd met bepaalde bedrijven zou kunnen verbeteren. organisaties, evenementen, publieke figuren, en andere entiteiten die van belang zijn voor die datamining van het nieuws. Het systeem werkt goed met nieuwsfeeds, zoals het RSS-type nieuwsfeed dat wordt gegenereerd door regelmatig bijgewerkte websites. Krantenkoppen uit dergelijke bronnen zijn doorgaans langer dan conventionele krantenkoppen, maar zijn niettemin beknopt, gewoonlijk tien of minder woorden lang zijn. Elk woord kan dan belangrijk zijn in een dataminingcontext en daarom is ondubbelzinnigheid van cruciaal belang.