science >> Wetenschap >  >> Elektronica

Een taalgeneratiesysteem dat creatieve poëzie kan componeren

Brendan Bena presenteert zijn werk op een conferentie. Krediet:UC Colorado Springs.

In de laatste paar decennia, onderzoekers hebben steeds geavanceerdere tools voor kunstmatige intelligentie (AI) en rekentechnieken ontwikkeld die in verschillende omgevingen kunnen worden toegepast. Tussen deze, technieken die geschreven of gesproken taal kunnen genereren hebben veel aandacht getrokken, vooral met de introductie van nieuwe spraakassistenten, robots en nieuwe interactieve apparaten.

Onderzoekers van de University of Colorado (UC) - Colorado Springs en Drury University hebben onlangs een uniek taalgeneratiesysteem ontwikkeld dat creatieve poëzieverzen kan produceren. hun systeem, gepresenteerd in een paper dat vooraf is gepubliceerd op arXiv, is een verfijnde aanpassing van GPT-2, een vooraf getraind taalmodel ontwikkeld door OpenAI.

Jugal Kalita, de professor aan UC Colorado Springs die toezicht houdt op de recente studie, doet al 30 jaar onderzoek naar natuurlijke taalgeneratie, vanaf zijn afgestudeerde dagen aan de Universiteit van Pennsylvania. Zijn eerste paper over natuurlijke taalgeneratie, gepubliceerd in 1988, was gericht op het produceren van alinea's tekst die in een typisch tijdschrift zouden kunnen voorkomen, volgens een aantal basisregels. Recenter, geïnspireerd door ontwikkelingen in kunstmatige neurale netwerken voor natuurlijke taalverwerking (NLP), Prof. Kalita en zijn studenten begonnen met het ontwikkelen van deep learning-technieken voor het genereren van korte artikelen, dialogen en creatief schrijven.

"Het idee om het onderwerp automatische poëziegeneratie te onderzoeken ontstond aan het begin van de zomer van 2019, toen Brendan Bena, een zomeronderzoekstagiair aan de Universiteit van Colorado, Colorado Springs, van de Drury University in Missouri, interesse toonde in het automatisch genereren van songteksten, " Prof. Kalita vertelde TechXplore. "Hij wilde oorspronkelijk kijken naar het creëren van een systeem dat zou proberen de emoties na te bootsen die door songteksten worden opgewekt."

Aangezien de meeste songteksten auteursrechtelijk zijn beschermd, het vinden van grote datasets om deep learning-modellen te trainen voor het genereren van songteksten kan een hele uitdaging zijn. Bena en Prof. Kalita besloten daarom om in plaats daarvan een deep learning tool te ontwikkelen voor het genereren van poëzie. Maar in plaats van zich te concentreren op kenmerken zoals de structuur of het ritme van poëzie, zoals de meeste eerdere studies over poëziegeneratie, ze verkenden de meer emotionele en creatieve aspecten ervan.

Voorbeelden van poëzie die emoties oproept die worden geproduceerd door het taalgeneratiesysteem van de onderzoekers. Krediet:Bena &Kalita.

"Nadat ik me realiseerde dat er een veel groter deel van het onderzoek was, evenals gegevens, op het gebied van poëziegeneratie, hebben we onze focus verlegd naar dit specifieke onderwerp, " vertelde Bena aan TechXplore. "Het werk was grotendeels gebaseerd op de overkoepelende taak van het genereren van tekst die gepaard ging met veel eerder onderzoek. Echter, in tegenstelling tot eerdere pogingen, we wilden meer focussen op de inhoud, emotie en creativiteit van de tekst, in tegenstelling tot de structuur of het ritme gevonden in eerdere poëzie generatie studies."

Om hun poëziegeneratiesysteem te ontwikkelen, Bena en Prof. Kalita verzamelden eerst een groot tekstcorpus uit de databases Project Gutenberg en UC-Santa Cruz Dreambank. Ze bladerden door de Gutenberg-database op zoek naar woorden in EmoLex, een emotie-lexicon dataset ontwikkeld door de National Research Council of Canada.

De onderzoekers splitsten de resulterende dataset vervolgens op in verschillende 'emotiecategorieën, " kijkend naar het aantal EmoLex-woorden in elk uittreksel, en gebruikte deze gegevens om een ​​diep neuraal netwerk te trainen. Het model dat ze hebben getraind is een aanpassing van GPT-2, een architectuur die leert nieuwe tekstfragmenten te genereren door de taalstijl te modelleren die wordt gebruikt in de gegevens waarop wordt getraind.

"We hebben ons kunstmatige neurale netwerk ook gevoed met een combinatie van droomgegevens en poëzie om te creëren wat bekend staat als 'droompoëzie, '" legde Bena uit. "Uiteindelijk, we hadden vijf afzonderlijke emotiemodellen voor de emoties van vreugde, droefheid, vertrouwen, woede en verwachting, maar we hadden ook een model voor droompoëzie. Dit systeem, zoals eerder vermeld, richt zich minder op de structuur die te vinden is in veel poëziegeneratiewerk en meer op een vrije-versstijl van poëzie die de finesse en creativiteit van echte dichters lijkt te imiteren en reproduceren."

De onderzoekers vroegen menselijke gebruikers om de gedichten te evalueren die door hun systeem zijn gemaakt, terwijl ook de Coh-Metrix-tool wordt gebruikt om de kwaliteit van de verzen die het heeft gegenereerd te beoordelen. Ze ontdekten dat het gedichten produceerde die 87,5% en 85% van de tijd effectief verdriet en vreugde opriepen, respectievelijk. In aanvulling, wanneer getraind op zowel droomgegevens als poëzie, hun systeem genereerde unieke 'droomachtige' poëzieverzen die elementen bevatten van wat bekend staat als 'droompoëzie' met een score van 3,2 op de Likert-schaal.

Voorbeelden van droompoëzie geproduceerd door het taalgeneratiesysteem van de onderzoekers. Krediet:Bena &Kalita.

"Onze bevindingen suggereren dat tekst kan, in feite, worden gegenereerd zodat het emoties oproept bij lezers en dat het kan lijken op de soorten creativiteit die kunstenaars in hun werk proberen te injecteren, "Zei Bena. "Wij geloven dat ons onderzoek een nieuw werk is op het gebied van creatieve poëziegeneratie en hopen dat onze studie de deur zal openen voor toekomstig werk op dit gebied."

Bena en Prof. Kalita behoren tot de eersten die de eerste glimpen van machinale creativiteit bij het genereren van poëzie laten zien. In hun volgende studies, de onderzoekers zijn van plan om de kwaliteit van de gedichten die door hun systeem zijn gecomponeerd te verbeteren, terwijl ze hun benadering ook toepassen op het creëren van poëzie in andere talen.

"Als we de trainingsgegevens wat meer verzamelen, we geloven dat een neurale netwerkarchitectuur de emoties en droomachtige aspecten van de poëzie die we willen creëren, beter kan vastleggen, "Zei Bena. "In feite, terwijl het EmoLex-woordenboek een zeer nuttige dataset is, zijn vocabulaire houdt geen rekening met al het oudere Engels dat in sommige Gutenberg-poëzie wordt aangetroffen."

In de toekomst, de onderzoekers hopen hun experiment te repliceren met de nadruk op lexicons op woordgroep- of segmentniveau, omdat dit hen in staat zou kunnen stellen om afhankelijkheden in op emoties gebaseerde tekst effectiever vast te leggen. Hun onderzoek zou ook kunnen worden herhaald met behulp van een meer geavanceerde neurale netwerkgebaseerde architectuur, wat de kwaliteit van de geproduceerde poëzie kan verbeteren, zowel in termen van grammatica als zinsbouw.

Aangezien Bena en Prof. Kalita hun systeem al hebben gebruikt om droompoëzieverzen te produceren, ze zouden het uiteindelijk ook kunnen toepassen op andere creatieve stijlen, zoals het wissen van poëzie. Erasure-poëzie wordt geproduceerd door specifieke of willekeurige woorden uit een bestaande tekst te nemen en deze vervolgens te gebruiken om nieuwe verzen te vormen.

"Eindelijk, we werken ook aan het genereren van poëzie in verschillende talen met behulp van transfer learning, " zei Prof. Kalita. "Bijvoorbeeld, Shaun Tucker, een masterstudent aan UC-Colorado Springs heeft poëzie in een aantal Indo-Europese talen gegenereerd met behulp van het vooraf getrainde GPT-2-model van OpenAI. Tot dusver, we hebben gedichten in het Engels gemaakt, Spaans, Oekraïens, Hindi, Bengali en Assamees en ontdekten dat het generatieve deep learning-model GPT-2, die vooraf is getraind met een grote hoeveelheid Engelse tekst, kan worden getraind met proza ​​en gedichten in al deze talen om poëzie te genereren."

© 2020 Wetenschap X Netwerk