Wetenschap
Tegoed:CC0 Publiek Domein
Stelt u zich eens voor dat u thuis voor vervolging vlucht, een moeilijke reis overleeft, in een nieuw land aankomt om asiel aan te vragen, om vervolgens aan de grens te worden afgewezen omdat niemand uw taal spreekt. Dit is de realiteit voor honderden migranten die de Verenigde Staten binnenkomen uit afgelegen gebieden van Midden-Amerika die geen gemeenschappelijke talen spreken, zoals Spaans of Portugees.
Een tekort aan vertalers voor inheemse asielzoekers die traditionele talen spreken, betekent dat velen maanden of zelfs jaren in Mexico moeten wachten om asiel aan te vragen, waardoor een lange achterstand ontstaat in een toch al overweldigd immigratiesysteem.
"Het Amerikaanse immigratiesysteem is opgezet om Engels en Spaans aan te kunnen", zegt Katy Felkner, een Ph.D. student computerwetenschappen aan de USC Viterbi School of Engineering, "maar er zijn honderden mensen per jaar die minderheidstalen spreken, in het bijzonder inheemse talen uit Mexico en Midden-Amerika, die geen toegang hebben tot de bronnen en rechtsbijstand die bestaat voor Spaanssprekende migranten."
In andere gevallen zijn mensen niet in staat de bedreigingen voor hun leven in hun woonplaats te verklaren, die de basis voor asiel zouden kunnen zijn. Wanneer migranten het niet kunnen begrijpen of niet begrepen kunnen worden, is er geen manier om de bedreiging voor hun veiligheid vast te stellen tijdens een "geloofwaardig angstinterview" dat wordt uitgevoerd door het Amerikaanse ministerie van Binnenlandse Veiligheid.
De statistieken zijn onthutsend:asielzoekende immigranten zonder advocaat hadden in slechts 13 procent van hun gevallen de overhand, terwijl die met een advocaat in 74 procent van hun gevallen de overhand hadden, volgens een onderzoek in de Fordham Law Review.
Felkner, die haar onderzoek doet aan het USC Information Sciences Institute (ISI) onder leiding van Jonathan May, universitair hoofddocent, werkt aan de ontwikkeling van een oplossing:een machinevertaalsysteem voor Mexicaanse en Midden-Amerikaanse inheemse talen dat kan worden gebruikt door organisaties die juridische hulp aan vluchtelingen en asielzoekers.
"Mensen worden direct benadeeld omdat er geen tolken beschikbaar zijn voor hun taal in rechtsbijstandsorganisaties", zegt Felkner. "Dit is een concrete en directe manier waarop we natuurlijke taalverwerking kunnen gebruiken voor sociaal welzijn."
"Mensen worden direct benadeeld omdat er geen tolken beschikbaar zijn voor hun taal in rechtsbijstandsorganisaties." Katy Felkner.
Asielzoekers een eerlijke kans geven
Felkner werkt momenteel aan een systeem voor een Guatemalteekse taal, een van de 25 meest voorkomende talen die de afgelopen jaren in de immigratierechtbank worden gesproken, volgens The New York Times.
"We proberen een ruw vertaalsysteem te bieden om non-profitorganisaties en ngo's die niet over de middelen beschikken om tolken in te huren, in staat te stellen een bepaald niveau van juridische bijstand te verlenen en asielzoekers een eerlijke kans te geven om door dat geloofwaardige angstinterview te komen," zei Felkner.
Felkners interesse in talen begon tijdens haar bachelordiploma aan de Universiteit van Oklahoma, waar ze een dubbele graad behaalde in computerwetenschappen en letteren, met een focus op Latijn. Tijdens haar eerste jaar op de universiteit werkte ze aan een project genaamd de Digital Latin Library, waarbij ze Python-code schreef om digitale versies van oude teksten te maken.
"Dat zette me aan het denken over taaltechnologie", zegt Felkner. "Ik heb mezelf een aantal basisprincipes van natuurlijke taalverwerking geleerd en ben me uiteindelijk gaan concentreren op machinevertaling omdat ik denk dat dit een van de gebieden is met de meest directe menselijke impact, en ook een van de moeilijkste problemen op dit gebied."
Terwijl Felkner en May zich momenteel richten op het ontwikkelen van een tekst-naar-tekstvertaler, is het einddoel over jaren een meertalig spraak-naar-spraak-vertaalsysteem:de advocaat zou Engels of Spaans spreken en het systeem zou automatisch vertalen in de inheemse taal van de asielzoeker en vice versa.
De ondergrens verleggen
Vertaalsystemen worden getraind met behulp van parallelle gegevens:met andere woorden, ze leren van het zien van vertaalparen, of dezelfde tekst in beide talen, op zinsniveau. Maar er zijn heel weinig parallelle gegevens in inheemse talen, waaronder Kʼicheʼ, ondanks dat het door ongeveer een miljoen mensen wordt gesproken.
Dat komt omdat parallelle gegevens alleen bestaan als er een dwingende reden is om in of uit die taal te vertalen. In wezen, zei Felkner, als het commercieel levensvatbaar is - Disney kopieert films van het Engels naar het Spaans bijvoorbeeld - of als het voortkomt uit een religieuze motivatie.
In veel gevallen, vanwege de invloed van missionarissen in heel Latijns-Amerika, is de enige parallelle gegevensbron - dezelfde tekst in beide talen - de Bijbel, die onderzoekers niet veel geeft om mee te werken.
"Stel je voor dat je een Engelse spreker bent die Spaans probeert te leren, maar het enige Spaans dat je ooit mag zien is het Nieuwe Testament," zei Felkner. "Het zou heel moeilijk zijn."
Dat is slecht nieuws voor de data-hongerige deep learning-modellen die worden gebruikt door taalvertaalsystemen die een kwantiteit boven kwaliteit benadering hanteren.
"De modellen moeten een aantal keren een woord, zin, grammaticale constructie zien om te zien waar het waarschijnlijk zal voorkomen en waarmee het overeenkomt in de andere taal", zei Felkner. "Maar we hebben dit niet voor Kʼicheʼ en andere extreem weinig gebruikte inheemse talen."
De cijfers spreken voor zich. Van Engels tot Kʼicheʼ, Felkner heeft ongeveer 15.000 zinnen met parallelle gegevens en 8.000 zinnen voor Spaans tot Kʼicheʼ. Het Spaans-Engelse model dat ze trainde voor wat basiswerk had daarentegen 13 miljoen zinnen aan trainingsgegevens.
"We proberen te werken met in wezen geen gegevens", zegt Felkner. "En dit is het geval voor vrijwel alle talen met weinig middelen, vooral in Amerika."
Eén tactiek in bestaand werk met weinig middelen gebruikt nauw verwante talen met meer middelen als uitgangspunt:om bijvoorbeeld van het Engels naar het Roemeens te vertalen, zou je het model in het Spaans gaan trainen.
Maar aangezien de inheemse talen van Amerika zich afzonderlijk van Europa en Azië hebben ontwikkeld, zijn de meeste van hen weinig hulpbronnen, en de meeste zijn extreem weinig hulpbronnen, een term die Felkner bedacht om een taal te beschrijven met minder dan ongeveer 30.000 zinnen aan parallelle gegevens.
"We proberen echt de ondergrens te verleggen van hoe weinig gegevens je kunt hebben om een machinevertaalsysteem met succes te trainen", zegt Felkner.
Van niets iets maken
Maar Felkner, met haar achtergrond in de taalkunde, was onverschrokken. De afgelopen twee jaar heeft ze gewerkt aan het creëren van taalgegevens voor de modellen met behulp van enkele kneepjes van het vak in natuurlijke taalverwerking.
Eén tactiek houdt in dat je het model leert om de abstracte taak van vertalen te voltooien en het vervolgens aan het werk te zetten voor de specifieke taal in kwestie. "Het is hetzelfde principe als een bus leren besturen door eerst een auto te leren besturen", zegt Felkner.
Om dit te doen, nam Felkner een Engels-naar-Spaans model en stemde het vervolgens voor Kʼicheʼ af op het Spaans. Het bleek dat deze aanpak, transfer learning genaamd, veelbelovend was, zelfs in een geval met extreem weinig middelen. "Dat was heel spannend", zei Felkner. "De transfer learning-aanpak en pre-training van een taal die niet nauw verwant is, waren nooit echt getest in deze extreem lage resource-omgeving, en ik ontdekte dat het werkte."
Ze maakte ook gebruik van een andere bron:het gebruik van grammaticaboeken die halverwege tot eind jaren 70 door veldlinguïsten zijn gepubliceerd om plausibele synthetische gegevens te genereren die kunnen worden gebruikt om de modellen te helpen leren. Felkner gebruikt de grammaticaboeken om regels te schrijven die haar zullen helpen syntactisch correcte zinnen uit de woordenboeken te construeren. De technische term hiervoor is bootstrapping of data-augmentatie, of in de volksmond "fake it till you make it".
"We gebruiken dit als pre-trainingsgegevens, om de modellen in wezen de basis van grammatica bij te brengen," zei Felkner. "Dan kunnen we onze echte gegevens, zoals de parallelle gegevens van de Bijbel, opslaan voor de fijnafstemmingsperiode waarin het zal leren wat semantisch zinvol is, of wat eigenlijk logisch is."
Ten slotte test ze een techniek waarbij zelfstandige naamwoorden in de Engelse en Kʼicheʼ-kant van de Bijbel worden ontleden, vervangen door andere zelfstandige naamwoorden en vervolgens een reeks regels gebruikt om de zinnen correct te verbuigen voor grammatica.
Als de trainingsgegevens bijvoorbeeld de zin hebben:'de jongen schopte de bal', zouden de onderzoekers deze benadering kunnen gebruiken om zinnen te genereren als 'het meisje schopte de bal', 'de dokter schopte de bal', 'de leraar schopte de bal bal', die allemaal trainingsgegevens kunnen worden.
"Het idee is om deze synthetisch gegenereerde voorbeelden te gebruiken om in wezen een ruwe versie van het systeem te bouwen, zodat we veel gebruik kunnen maken van de kleine hoeveelheid echte gegevens die we hebben, en deze kunnen afstemmen op precies waar we wil dat het zo is", zei Felkner.
Onmiddellijke humanitaire impact
Werken in vertalingen met extreem weinig middelen is niet gemakkelijk, en het kan soms frustrerend zijn, geeft Felkner toe. Maar de uitdaging en het potentieel om levens te veranderen, drijven haar tot succes.
Binnen het komende jaar is ze van plan een excursie te maken om te zien hoe rechtsbijstandsorganisaties aan de grens werken en waar haar systeem in hun workflow zou kunnen passen. Ze werkt ook aan een demo-website voor het systeem, dat ze in 2023 hoopt te onthullen, en als het eenmaal is ontwikkeld, hoopt ze dat het systeem op een dag kan worden toegepast op andere inheemse talen.
"Hill klimmen op talen met veel bronnen kan ervoor zorgen dat je Alexa, Google Home of Siri je beter begrijpt, maar het is niet op dezelfde manier transformerend", zegt Felkner. "I'm doing this work because it has an immediate humanitarian impact. As JFK once said, we choose to go to the moon not because it is easy, but because it is hard. I often think the things that are worth doing are difficult." + Verder verkennen
Wetenschap © https://nl.scienceaq.com