science >> Wetenschap >  >> Elektronica

SentiArt:een instrument voor sentimentanalyse voor het profileren van karakters uit wereldliteratuurteksten

Pseudo-big 5 scores voor zeven hoofdfiguren in de Harry Potter-boeken. Deze scores zijn percentielen op basis van een steekproef van 100 cijfers die voorkomen in de boekenreeks. Krediet:Arthur M. Jacobs.

Arthur Jacobs, een professor en onderzoeker aan de Freie Universität Berlin, heeft onlangs SentiArt ontwikkeld, een nieuwe machine learning-techniek om sentimentanalyses van literaire teksten uit te voeren, evenals zowel fictieve als non-fictieve figuren. In zijn krant, ingesteld om te worden gepubliceerd door Grenzen in robotica en AI , hij paste dit hulpmiddel toe op passages en personages uit de Harry Potter-boeken.

Jacobs heeft een achtergrond in neurolinguïstiek, een tak van de taalkunde die de neurale mechanismen onderzoekt die verband houden met taalverwerving, begrip en expressie. In zijn eerdere werk hij heeft vaak onderzocht hoe tools voor machine learning kunnen worden gebruikt om menselijke taal te analyseren en beter te begrijpen. Hij is vooral geïnteresseerd in wat hij computationele poëtica noemt, een studiegebied dat zich richt op het gebruik van computationele hulpmiddelen om literaire inhoud te begrijpen.

"In 2011, Ik schreef een boek met de Oostenrijkse dichter Raoul Schrott genaamd 'Hersenen en Poëzie' , ' waar we speculeerden dat het zou helpen om sentimentanalyse-instrumenten te ontwikkelen voor literaire teksten en poëzie, niet alleen voor filmrecensies of Trump-tweets, wat de gouden standaard lijkt te zijn in de klassieke sentimentanalyse, Jacobs vertelde TechXplore. "We wilden ook een tool ontwikkelen die menselijke neuronale en gedragsgegevens kan voorspellen. niet alleen zelfrapportages verzameld via Amazon Turk."

In zijn nieuwe studie Jacobs probeerde enkele van de ideeën die hij in zijn eerdere werk had geïntroduceerd in de praktijk te brengen door een hulpmiddel te ontwikkelen voor het analyseren van sentiment in literaire teksten. De techniek die hij voorstelde, genaamd SentiArt, maakt gebruik van vectorruimtemodellen en theoriegestuurde, empirisch gevalideerde lijsten van labels om de valentie van individuele woorden in een tekst te berekenen. Vectorruimtemodellen zijn representaties van tekstdocumenten als vectoren van identifiers, die vaak worden gebruikt om te filteren, informatie opvragen of ordenen.

"SentiArt is een zeer simplistische tool die door niet-experts kan worden gebruikt om eenvoudig de woorden in hun testtekst te vergelijken (d.w.z. de tekst waarop ze een sentimentanalyse willen doen) met een Excel-sheet die ze gratis van mijn homepage kunnen downloaden, Jacobs legde uit. de tool zou moeten werken in elke taal waarvoor je de zogenaamde vectorruimtemodellen van Facebook kunt downloaden, op de fastText-webpagina. Terwijl mijn studie zich richt op Engels en Duits, je zou het ook in het Maleis kunnen gebruiken, Farsi of een Chinees dialect, en een groot aantal andere talen, aangezien fastText vectorruimtemodellen heeft voor meer dan 290 talen."

Jacobs benadrukt dat SentiArt vrij eenvoudig te gebruiken is, hij voegde eraan toe dat hij in staat was om 30 Duitse literatuurstudenten te leren hoe ze het moesten gebruiken tijdens een les van een uur. In zijn recente werk hij testte de nauwkeurigheid van de tool met behulp van gegevens verzameld tijdens een neurocognitief onderzoek en gebruikte het vervolgens om emotionele en persoonlijkheidsprofielen te berekenen voor enkele van de belangrijkste Harry Potter-personages, inclusief Voldemort, Sneep, Hermelien, Hagrid, Harrie, Dumboldore en Dobby.

interessant, hij berekende de emotionele figuren en persoonlijkheidsprofielen van deze personages op basis van de 'big five' persoonlijkheidstheorie, een gevestigde constructie in psychologisch onderzoek. De 'big five'-theorie wordt over het algemeen gebruikt om de persoonlijkheidskenmerken van mensen ruwweg te meten op basis van vijf belangrijke dimensies, namelijk openheid, gewetensvol, extraversie, vriendelijkheid en emotionele stabiliteit.

Jacobs voerde een reeks analyses uit en vergeleek de tool die hij ontwikkelde met andere machine learning classifiers voor sentimentanalyse, zoals Vader en Hu-Liu. SentiArt presteerde opmerkelijk goed in het voorspellen van het emotionele potentieel van tekstpassages uit de Harry Potter-boeken, terwijl ze ook plausibele voorspellingen doen over het emotionele en persoonlijkheidsprofiel van fictieve personages. Eindelijk, de tool bereikte een veelbelovende kruisvalidatienauwkeurigheid bij het classificeren van 100 fictieve figuren in 'goede' of 'slechte'.

"Het papier is op een paar beperkte toepassingen en in twee talen (Duits/Engels), dus voordat ik kan speculeren over het toepassingspotentieel, experimenteel wetenschapper zijn, Ik zou graag nog veel meer kruisvalidatiestudies willen hebben waarbij gebruik wordt gemaakt van menselijke gegevens, Jacobs legde uit. "Zo ben ik nu eenmaal opgeleid, hoewel dit meestal niet de belangrijkste prioriteiten zijn bij natuurlijke taalverwerking (NLP) of de machine learning-gemeenschap. Maar als neurolinguïst, we zouden altijd proberen de voorspellingen van een algoritme te testen met menselijke gegevens voordat we speculeren over waar het echt nuttig voor is."

Hoewel Jacobs de noodzaak benadrukt van verder onderzoek om de effectiviteit en generaliseerbaarheid van SentiArt vast te stellen, de tool die hij ontwikkelde zou uiteindelijk tal van interessante toepassingen kunnen hebben. Bijvoorbeeld, het kan worden toegepast op gebieden zoals computerlinguïstiek, persoonlijkheidspsychologie, digitale geesteswetenschappen en misschien zelfs in klinische omgevingen. Het kan, in principe, ook worden toegepast op niet-fictieve personages die voorkomen in Wikipedia of Wikinews, bijv. Winston Churchill, Marilyn Monroe of Angela Merkel.

"Het model paste met een eerste set empirische gegevens, de Harry Potter-beoordelingen, is zeker bemoedigend, "Jacobs voegde eraan toe. "Ook twee van de meest populaire tools voor sentimentanalyse waarmee ik het heb vergeleken, doen het in deze context niet beter, dus ik denk dat dit een prestatie is die publicatie verdient. Ik denk dat het tonen van het emotionele karakterprofiel voor Voldemort of Harry Potter een leuke gimmick was, maar natuurlijk, de tool kan ook worden toegepast op niet-fictieve personages."

Jacobs is nu van plan verdere kruisvalidatiestudies uit te voeren om de voorspellingen van zijn model te testen met menselijke gegevens. Hij hoopt dat teams van andere universiteiten hetzelfde zullen doen, ofwel met behulp van gegevens verzameld via Amazon Turk of neuroimaging-gegevens, zoals in de 'Harry Potter'-studie die in zijn laboratorium werd uitgevoerd. hij zou graag manieren willen onderzoeken om de prestaties van sentimentanalysetools in taken te verbeteren met behulp van machine learning-regressors in plaats van classifiers.

"Machine learning approaches are generally divided into two different types, " Jacobs explained. "The first are classification approaches, which classify data into categories, such as positive or negative. This is where my algorithm does very well. The hard test is not classification, it's regression, which entails fitting an algorithm's predictions to continuous human data, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, bijvoorbeeld, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."

In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.

© 2019 Wetenschap X Netwerk