science >> Wetenschap >  >> Elektronica

Wetenschappers leren neuraal netwerk om het geslacht van een schrijver te identificeren

Een team van onderzoekers van de National Research Nuclear University MEPhI, het National Research Center Kurchatov Institute en de Voronezh State University hebben een nieuw leeralgoritme ontwikkeld waarmee een neuraal netwerk het geslacht van een schrijver kan identificeren aan de hand van de geschreven tekst op een computer met een nauwkeurigheid tot 80 procent.

Dit is een nieuwe ontwikkeling op het gebied van computationele taalkunde. Het onderzoek werd gefinancierd door een subsidie ​​van de Russian Science Foundation. De bevindingen werden gepubliceerd in de Procedia Informatica logboek.

Veel wetenschappelijke studies tonen aan dat schrijfstijl bepaalde kenmerken van een schrijver kan weerspiegelen - geslacht, fysiologische persoonlijkheidskenmerken, en opleidingsniveau. Spraakpatronen zijn een waardevol psychodiagnostisch hulpmiddel, en worden vaak gebruikt door personeelsprofessionals en veiligheidsdiensten.

Door de spraak van een persoon te analyseren, kunnen onderzoekers bepaalde ziekten diagnosticeren, zoals dementie en depressie, en de neiging van de persoon tot suïcidaal gedrag. De vraag naar het identificeren van bepaalde kenmerken van de persoonlijkheid van een schrijver neemt toe tegen de achtergrond van de ontwikkeling van internetcommunicatie - bedrijven willen weten welke demografie hun producten en diensten leuk vinden.

Met behulp van de numerieke waarden voor verschillende parameters in een tekst, onderzoekers op dit gebied (linguïsten, psychologen, IT-experts) hebben wiskundige modellen gemaakt om bepaalde eigenschappen in de persoonlijkheid van de schrijver te identificeren. Met behulp van neurale netwerken, de onderzoekers analyseerden de effectiviteit van verschillende machine learning-algoritmen voor tekstanalyse.

Tijdens het onderzoek, de wetenschappers vergeleken de nauwkeurigheid van geslachtsidentificatie door tekst op basis van twee soorten gegevensgestuurde modellering:ten eerste, algoritmen voor machinaal leren (zoals een ondersteuningsvectormachine en gradiëntversterking), en, tweede, een deep learning neuraal netwerk (zoals convolutionele neurale netwerken en de lange korte termijn geheugen terugkerende neurale netwerken).

"Met behulp van deze geavanceerde neurale netwerkmodellen, we hebben geweldige resultaten behaald bij het identificeren van het geslacht van de schrijver op basis van tekst, onder omstandigheden waarin de auteur zijn/haar geslacht niet probeert te verbergen, " zei Alexander Sbojev, assistent-professor bij MEPhI. "Onze volgende stap is om het neurale netwerk te leren het geslacht te identificeren van een schrijver die het opzettelijk probeert te verbergen."

Dus, in de volgende teksten, oorspronkelijk gepubliceerd op datingwebsites, het neurale netwerk identificeerde gemakkelijk 10 van de 10 keer het geslacht van de schrijver, ondanks het feit dat auteurs vrij waren om hun teksten te signeren met een naam die typerend is voor het andere geslacht.

Deze tekst is geschreven door een vrouw:"Ik ben een knappe, fitte 30-jarige man. Ik heb een goedbetaalde baan bij een groot olie- en gasbedrijf. Ik woon in mijn eigen flat in Moskou, en bezit ook een klein maar fijn huis in een Italiaans dorp. ik hou van sporten, voornamelijk voetbal. Ik hou van uitgaan in het weekend, Ik kan niet tegen huismussen. Mijn perfecte meisje zou bescheiden en mooi zijn, en een aantrekkelijk lichaam zou hebben, gebaseerd op de huidige normen. Ze zou mijn interesses delen en zou niet jaloers zijn of proberen me jaloers te maken. In de toekomst, Ik ben niet van plan om de enige kostwinner in een gezin te zijn, omdat ik geloof dat als het om gezinnen gaat, zowel mannen als vrouwen moeten het geld verdienen. Ik zou ook graag aparte budgetten hebben. Ik tolereer geen bedrog."

Deze tekst is geschreven door een man:"Hallo! Ik ben heel boos, heel! Waarom blijf je ons zo behandelen?! Wij zijn mensen, te, we zijn allemaal gelijk! Ben je seksistisch? Dit tolereer ik niet meer! Ik ga je auto in stukken slaan; Ik zal er verf overheen spuiten. Wacht maar, jij Monster. Het is klote om jou te zijn."

Dit onderzoek gaf aan dat de benadering gebaseerd op het gebruik van convolutionele neurale netwerken en methoden van diep leren om het geslacht van een schrijver te identificeren, het meest optimaal is. Het team van onderzoekers werkt momenteel aan het identificeren van de leeftijd van een schrijver.