science >> Wetenschap >  >> Elektronica

Waarom taaltechnologie Game of Thrones (nog) niet aankan

Winterval. Krediet:mauRÍCIO santos (Unsplash, publiek domein)

Onderzoekers van de Vrije Universiteit Amsterdam en het Humanities Cluster van de KNAW evalueerden vier state-of-the-art tools voor het herkennen van namen in tekst, om hun prestaties op populaire fictie te beoordelen en te verbeteren. Ze vinden oplossingen om het vermogen van de tools om namen in één roman te herkennen, te vergroten van een nauwkeurigheid van 7% tot 90%.

Tools voor natuurlijke taalverwerking (NLP) worden vaak gebruikt in veel dagelijkse toepassingen zoals Siri en Google, maar de effectiviteit van deze technologieën wordt niet goed begrepen. Onderzoekers van de Vrije Universiteit Amsterdam en het Humanities Cluster van de Koninklijke Academie hebben een grondige evaluatie uitgevoerd van vier verschillende naamherkenningstools op populaire 40 romans, inclusief A Game of Thrones. Hun analyses, gepubliceerd in PeerJ Computerwetenschappen , markeer soorten namen en teksten die bijzonder uitdagend zijn voor deze tools om te identificeren, evenals oplossingen om dit te verminderen. In aanvulling, ze haalden sociale netwerken uit de romans om verschillen in verhaalstructuur te onderzoeken. Deze inzichten kunnen helpen om dergelijke technologieën robuuster te maken tegen genreverschillen, en kan bijvoorbeeld helpen deze technologie nuttiger te maken voor journalisten die grote datasets willen analyseren, zoals de Panama Papers.

Veel NLP-tools zijn gebaseerd op machine learning; dat is, een computerprogramma wordt getraind om patronen in tekst te herkennen op basis van eerder ingevoerde voorbeelden. Om namen in tekst te herkennen, het wordt bijvoorbeeld gevoed met veel krantenartikelen waarin mensen de namen minutieus hebben gemarkeerd. Het programma krijgt vervolgens de opdracht om te 'leren' hoe een naam eruitziet op basis van context (zoals het wordt voorafgegaan door de heer) of de vorm van het woord (zoals dat namen in het Engels meestal met een hoofdletter beginnen). Nutsvoorzieningen, het probleem bij het toepassen van een dergelijk systeem dat is getraind op kranten op romans, is dat romanschrijvers veel meer vrijheid hebben in hun verhaal dan journalisten die zich aan feiten moeten houden. Fictieschrijvers kunnen hun eigen naam verzinnen, zoals Tywin of R'hllor, of gebruik beschrijvende karakternamen rechtstreeks uit het woordenboek, zoals Gray Worm. Deze namen gedragen zich niet als 'gewone' namen, dus hebben NLP-systemen moeite om ze in een tekst te herkennen.

Netwerkvisualisatie die laat zien dat Dany/Daenerys niet in de buurt komt van andere hoofdpersonen in 'A Game of Thrones'. Credit:N.M. Dekker, CC BY-SA 4.0

De experimenten uitgevoerd door Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) en Marieke van Erp (KNAW Humanities Cluster) belichten ook de flexibiliteit van taal en hoe namen in verhalen worden gecontextualiseerd. Het is bijvoorbeeld mogelijk om naar Daenerys Targaryen te verwijzen als Daenerys en zij, maar ze is ook bekend als Dany, Daenerys Stormborn, Moeder der draken, Khaleesi, de Onverbrande en Mhysa. Het sociale netwerk gecreëerd voor A Game of Thrones, illustreert bijvoorbeeld dat Dany wordt gebruikt door haar vrienden, en haar volledige naam Daenerys alleen door haar vijanden (in haar afwezigheid).

Uit het in deze publicatie beschreven onderzoek blijkt dat er meer aandacht moet komen voor de performance van NLP-tools en dat er nog werk aan de winkel is voordat 'tekst' volledig door computers kan worden begrepen.