science >> Wetenschap >  >> Elektronica

Bijbel helpt onderzoekers om vertaalalgoritmen te perfectioneren

Teksten uit 34 versies van de Engelstalige Bijbel werden gebruikt om computergebaseerde overdrachtssystemen voor stijlen te helpen verbeteren. Het resultaat kan verschillende versies van geschreven passages creëren voor specifieke doelgroepen. Credit:Bijbelfoto:Chris Downer. Samengestelde afbeelding:Keith Carlson.

Op zoek naar inspiratie voor het verbeteren van computergebaseerde tekstvertalers, onderzoekers van Dartmouth College wendden zich tot de Bijbel voor begeleiding. Het resultaat is een algoritme dat is getraind op verschillende versies van de heilige teksten en dat geschreven werken kan omzetten in verschillende stijlen voor verschillende doelgroepen.

Internettools om tekst te vertalen tussen talen zoals Engels en Spaans zijn overal verkrijgbaar. Het maken van stijlvertalers - tools die tekst in dezelfde taal houden maar de stijl transformeren - zijn veel langzamer opgekomen. Gedeeltelijk, pogingen om de vertalers te ontwikkelen zijn belemmerd door de moeilijkheid om de enorme hoeveelheid benodigde gegevens te verkrijgen. Dit is waar het onderzoeksteam zich tot de Bijbel wendde.

Behalve dat het een bron van spirituele begeleiding is voor veel mensen over de hele wereld, zag het door Dartmouth geleide team in de Bijbel "een grote, eerder ongebruikte dataset van uitgelijnde parallelle tekst." Naast het bieden van oneindige inspiratie, elke versie van de Bijbel bevat meer dan 31, 000 verzen die de onderzoekers gebruikten om meer dan 1,5 miljoen unieke combinaties van bron- en doelverzen te produceren voor trainingssets voor machine learning.

Volgens het onderzoek gepubliceerd in het tijdschrift Royal Society Open Science , dit is niet de eerste parallelle dataset die is gemaakt voor stijlvertaling. Maar het is de eerste die de Bijbel gebruikt. Andere teksten die in het verleden zijn gebruikt, variërend van Shakespeare tot Wikipedia-vermeldingen, bieden datasets die ofwel veel kleiner zijn of niet zo goed geschikt zijn voor de taak van het leren van stijlvertalingen.

"De Engelstalige Bijbel is er in veel verschillende geschreven stijlen, waardoor het de perfecte brontekst is om mee te werken voor stijlvertaling, " zei Keith Carlson, een doctoraat student aan Dartmouth en hoofdauteur van het onderzoekspaper over de studie.

Als bijkomend voordeel voor het onderzoeksteam, de Bijbel is al grondig geïndexeerd door het consequente gebruik van boeken, hoofdstuk- en versnummers. De voorspelbare organisatie van de tekst in verschillende versies elimineert het risico van uitlijningsfouten die kunnen worden veroorzaakt door automatische methoden voor het matchen van verschillende versies van dezelfde tekst.

"De Bijbel is een 'goddelijke' dataset om mee te werken om deze taak te bestuderen, " zei Daniel Rockmore, een professor in de computerwetenschappen aan Dartmouth en auteur van het onderzoek. "Mensen hebben al eeuwenlang de taak om bijbelteksten te ordenen, dus we hoefden niet te vertrouwen op minder betrouwbare uitlijningsalgoritmen."

Om "stijl" voor de studie te definiëren, de onderzoekers verwijzen naar de lengte van de zin, het gebruik van passieve of actieve stemmen, en woordkeuze die kunnen resulteren in teksten met een verschillende mate van eenvoud of formaliteit. Volgens de studie:"Verschillende bewoordingen kunnen verschillende niveaus van beleefdheid of vertrouwdheid met de lezer overbrengen, verschillende culturele informatie over de schrijver weergeven, gemakkelijker te begrijpen zijn voor bepaalde populaties."

Het team gebruikte 34 stilistisch verschillende bijbelversies, variërend in taalkundige complexiteit van de "King James Version" tot de "Bible in Basic English". De teksten werden ingevoerd in twee algoritmen:een statistisch machinevertaalsysteem genaamd "Moses" en een neuraal netwerkkader dat vaak wordt gebruikt bij machinevertaling, "Seq2Seq."

Terwijl verschillende versies van de Bijbel werden gebruikt om de computercode te trainen, uiteindelijk zouden er systemen kunnen worden ontwikkeld die de stijl van elke geschreven tekst vertalen voor verschillende doelgroepen. Als voorbeeld, een stijlvertaler zou een Engelstalige selectie uit "Moby Dick" kunnen nemen en deze in verschillende versies kunnen vertalen die geschikt zijn voor jonge lezers, niet-moedertaalsprekers van het Engels, of een van een verscheidenheid aan doelgroepen.

"Tekstvereenvoudiging is slechts één specifiek type stijloverdracht. Meer in het algemeen, onze systemen zijn bedoeld om tekst te produceren met dezelfde betekenis als het origineel, maar doe dat met andere woorden, ' zei Carlson.

Dartmouth College heeft een lange geschiedenis van innovatie in de informatica. De term 'kunstmatige intelligentie' werd bedacht in Dartmouth tijdens een conferentie in 1956 die de AI-onderzoeksdiscipline creëerde. Andere verbeteringen zijn het ontwerp van BASIC, de eerste algemene en toegankelijke programmeertaal, en het Dartmouth Time-Sharing-systeem dat heeft bijgedragen aan het moderne besturingssysteem.