science >> Wetenschap >  >> anders

Machinevertaling kan wetenschap alleen in het Engels voor iedereen toegankelijk maken

Machine learning met behulp van kunstmatige intelligentie heeft de computervertaling het afgelopen decennium verbeterd, maar wetenschappelijke artikelen waarin gespecialiseerd jargon wordt gebruikt, vormen nog steeds een uitdaging voor machinevertaling. Desalniettemin moeten wetenschappers prioriteit geven aan het vertalen van artikelen in meerdere talen om een ​​billijk landschap te bieden aan beginnende wetenschappers over de hele wereld, beweren onderzoekers van UC Berkeley. Krediet:Valeria Ramírez-Castañeda, UC Berkeley

Terwijl hij nog op de middelbare school zat, werkte Xinyi Liu korte tijd in een laboratorium aan de Beihang University in Peking en was verrast om te zien dat Chinese onderzoekers routinematig Google Translate gebruikten om de eerste Engelse versie van wetenschappelijke artikelen te genereren. Vertaling is een must als wetenschappers willen indienen bij spraakmakende tijdschriften, die bijna allemaal in het Engels zijn.

"Het was normaal dat postdocs gewoon Google Translate gebruikten om eerst alles te vertalen en het vervolgens aan te passen en op te poetsen. Maar na de eerste vertaling klopte het hele artikel niet", zegt Liu, een opkomende junior aan de Universiteit van Californië. , Berkeley, met als hoofdvak moleculaire en celbiologie. "Letterlijk, alle woorden, alle termen werden willekeurig aan elkaar geplakt."

Er moest een betere manier zijn, dacht ze.

Dus toen ze vorig jaar een nieuw seminar zag dat werd gegeven door Rebecca Tarvin over het doorbreken van taalbarrières in de wetenschap, schreef ze zich in.

Die klas, die in het voorjaar van 2023 voor de derde keer aan UC Berkeley wordt gegeven, was een proefballon voor Tarvin, een assistent-professor integratieve biologie. Met hernieuwde campusbrede belangstelling voor diversiteit, gelijkheid en inclusie, dachten zij en werkgroepen binnen haar afdeling dat de klas UC Berkeley zou kunnen helpen bij het aanpakken van een al lang bestaand probleem in de wetenschap:Engels, de dominante taal van de wetenschap, is een groot obstakel voor wetenschappers die geen Engels als moedertaal hebben.

Niet alleen buitenlandse studenten en wetenschappers zijn benadeeld als wetenschap vooral in het Engels wordt gecommuniceerd. Dat geldt ook voor veel in Amerika geboren studenten. In de herfst van 2020 was ongeveer 40% van de eerstejaarsstudenten van UC Berkeley eerstegeneratiestudenten, en binnen het 10-campus University of California-systeem groeide 39% van de eerstegeneratiestudenten op met een andere taal dan Engels als hun eerste taal.

"Veel van onze studenten uit Californië zijn opgegroeid met vertalen voor hun ouders," zei Tarvin. "Vertalen is een onderdeel van hun leven geweest sinds ze heel jong waren."

Voor Tarvin was de klas - Taalbarrières doorbreken in evolutie en ecologie - een "kans om zowel studenten vaardigheden op het gebied van vertaalgeletterdheid bij te brengen, als studenten aan te moedigen activisten te zijn in dit rijk van structurele verandering. En in feite heb ik een echt positieve ontvangst van dit soort activisme door de studenten, omdat ze het er allemaal over eens lijken te zijn dat het aanpakken van taalbarrières erg belangrijk is na het volgen van de cursus."

De klas leidde Tarvin en enkele afgestudeerde studenten van UC Berkeley, samen met medewerkers in Canada, Israël en Hongarije, om een ​​wetenschappelijk artikel te schrijven waarin nieuwe hulpmiddelen voor automatische vertaling worden geëvalueerd die door mensen over de hele wereld kunnen worden gebruikt om hun wetenschappelijke artikelen toegankelijk te maken voor niet-Engelstaligen . Het artikel verscheen deze maand online in het tijdschrift BioScience . Vertalingen in het Spaans, Frans, Portugees en Hongaars, de talen van de co-auteurs, staan ​​ook online.

"Het idee hier is dat we mensen de tools en motivatie proberen te geven om hun eigen wetenschappelijk onderzoek te vertalen," zei Tarvin. "Wetenschap hoeft niet gebaseerd te zijn op één taal. En er zijn veel extra voordelen die voortvloeien uit het integreren van meertalige benaderingen in elke fase van de wetenschap. Publiceren in meerdere talen zal bijvoorbeeld de samenleving ten goede komen door betere wetenschapscommunicatie."

"Taal kan een barrière zijn, maar ook een fantastisch hulpmiddel om mensen bij elkaar te brengen", benadrukt Emma Steigerwald, de eerste auteur van het artikel en een afgestudeerde student aan de UC Berkeley in milieuwetenschappen, beleid en management. "Het is een barrière die we kunnen overwinnen met deze nieuwe technologie. We leggen uit over de technologie en hoe deze kan worden geïmplementeerd en de dingen waar we ons bewust van moeten zijn wanneer we de technologie gebruiken, en alle prachtige en positieve manieren waarop wetenschapscommunicatie kan worden getransformeerd door deze nieuwe technologie toe te passen."

Naar een meertalig wetenschappelijk netwerk

Tot voor kort was computervertaling het mikpunt van grappen. Mensen deelden amusante voorbeelden van verkeerde vertalingen, die vaak andere talen dan het Engels leken te minachten, en daarmee ook andere culturen.

Maar machine learning, of kunstmatige intelligentie, heeft de nauwkeurigheid van vertalingen enorm vergroot, zodat toeristen internetdiensten zoals Google Translate gebruiken om te communiceren met mensen in de landen die ze bezoeken.

Maar voor tekst die veel jargon bevat - veel wetenschappelijk, maar ook uit veel andere academische velden - is Google Translate hopeloos ontoereikend.

"De vertaalkwaliteit is niet voor een tijdschrift", zegt Ixchel Gonzalez Ramirez, een van de afgestudeerde studentmentoren voor de cursus. "Vaak moeten mensen betalen voor het laten vertalen van hun werk door een professionele vertaler, en dat is erg duur."

Het nieuwe artikel belicht enkele van de vele diensten - de meeste gratis - die Engelse wetenschappelijke geschriften in andere talen kunnen omzetten. Naast het bekende Google Translate-platform, zijn dit onder meer DeepL, dat neurale netwerken gebruikt en beweert vele malen nauwkeuriger te zijn dan concurrenten bij het vertalen van Engels naar Chinees, Japans, Romaanse talen of Duits, en vice versa; Baidu Translate, een dienst van het Chinese internetbedrijf Baidu die zich aanvankelijk richtte op vertalen tussen Engels en Chinees; Naver Pagago, een meertalige vertaler gemaakt door een bedrijf in Zuid-Korea; en Yandex.Translate, dat statistische machinevertaling gebruikt en zich voornamelijk richt op Russisch en Engels.

"Vertalen komt steeds meer binnen het bereik van iedereen. Of je nu een expert bent of niet, en of je zelfs tweetalig bent, het vermogen om te vertalen wordt zo versneld door zoveel van de technologieën die we vandaag beschikbaar hebben." zei Steigerwald. "En hoe kunnen we dit als wetenschappers integreren in onze workflow, en hoe verandert dit de verwachtingen rond wetenschappelijke communicatie?"

El aprendizaje que usa tecnologías de inteligencia artificial ha mejorado la traducción en computador en la última década. Sin embargo, los artículos científicos que emplean terminología especializada siguen siedo un reto para la traducción automática. Geen obstante, een gemeenschappelijke kennis van de geschiedenis van de kunst en verschillende uitdrukkingen voor een panorama van de wetenschappelijke en wetenschappelijke kennis van de wereld, bevestigde onderzoeken van de UC Berkeley. Krediet:Valeria Ramírez-Castañeda, UC Berkeley

Engels is de lingua franca van de wetenschap

Tarvins interesse in vertalen kwam voort uit een van haar afgestudeerde studenten, Valeria Ramírez Castañeda, die in 2020 een paper publiceerde waarin de kosten werden beschreven van haar mede-Columbiaanse doctoraatsstudenten die wilden publiceren of communiceren met collega's in een wereld die wordt gedomineerd door Engels.

Als evolutionair bioloog die geïnteresseerd was in hoe sommige dieren vergif gingen gebruiken, besloot Tarvin haar nieuwe seminar te concentreren op het vertalen van papers op het gebied van evolutie en ecologie, hoewel studenten die zich aanmeldden uiteindelijk hun eigen koers uitstippelden. Ze zocht vooral studenten, zoals Liu, en mentoren, zoals Gonzalez Ramirez, die twee- of meertalig zijn.

"Iedereen in de klas heeft een soort familiegerelateerde relatie met taal gehad," zei Tarvin.

Tarvin vroeg Mairi-Louise McLaughlin, professor Frans en taalkunde aan de UC Berkeley en expert op het gebied van journalistiek en literair vertalen, ook om met de klas te praten over hoe professionals vertalen benaderen en hoe vertaling de betekenis beïnvloedt. Dat onderwerp sprak de studenten aan toen ze probeerden wetenschappelijke samenvattingen en soms hele papers te vertalen.

Ruoming Cui, een opkomende tweedejaarsstudent die de cursus in het voorjaar van 2022 volgde, koos Baidu om wetenschappelijke samenvattingen te vertalen. Ze ontdekte meteen dat de lange, complexe zinnen van het Engels en het gebruik van meerdere woorden om een ​​concept te beschrijven, overbodig leken als ze in het Chinees werden weergegeven.

"Normaal gesproken doen we dat niet in het Chinees, omdat het elke zin extra lang maakt en het is erg vervelend", zei ze.

Liu voegde eraan toe dat zonder veel polijsten veel Engelse vertalingen onleesbaar worden, zei ze.

"Ik hoorde het gezegde dat, hoewel je resultaat verbluffend is, mensen geïrriteerd zullen raken als je een verwarrend artikel schrijft vanwege de vertaling, omdat ze niet kunnen begrijpen wat je aan het doen bent," zei Liu. "En dat zal grote invloed hebben op hoe mensen het onderzoek valideren of dat ze het zelfs zullen lezen. Ik denk dat dat een grote barrière is in de wetenschappelijke wereld."

Steigerwald, Tarvin en hun co-auteurs realiseerden zich ook dat het schrijven van wetenschappelijke artikelen in duidelijker Engels - iets wat niet-wetenschappers al lange tijd aanmoedigen - zowel Engelstaligen als niet-Engelstaligen ten goede komt.

"Als je eerste taal geen Engels is, en je probeert gewoon de Engelstalige versie van de krant te lezen, zal het veel minder dubbelzinnig en veel leesbaarder aanvoelen als de schrijver gewone taal heeft gebruikt," zei Steigerwald. "Maar ook, heel belangrijk, als je dat stuk tekst gaat vertalen, zullen de machine learning-tools een veel gemakkelijkere tijd hebben om iets te vertalen dat in gewone taal is geschreven. Dit is dus een soort toekomstbestendig maken van je schrijven, dus dat als iemand het in een miljoen talen wil vertalen, ze het veel gemakkelijker zullen hebben als het op die manier is geschreven."

Er blijven obstakels voor het wijdverbreid vertalen van wetenschappelijke artikelen, inclusief waar ze beschikbaar kunnen worden gesteld en hoe om te gaan met auteursrechten. De meeste tijdschriften accepteren niet eens artikelen die niet in het Engels zijn, en weinigen staan ​​co-publicatie van artikelen met vertaling expliciet toe. Tarvin heeft geconstateerd dat maar weinig tijdschriften een beleid hebben ten aanzien van vertalingen, en als gevolg van algemene auteursrechtbeperkingen vragen veel uitgevers exorbitante kosten om een ​​vertaling na publicatie online te plaatsen.

"Het is verbazingwekkend hoeveel tijdschriften je niet toestaan ​​om na publicatie vrijelijk vertalingen te publiceren, en hoe weinigen platformondersteuning hebben waar je zelfs maar een samenvatting in een tweede of derde taal zou kunnen hebben," zei Tarvin. "Ik denk dat een grote barrière hiervoor de webplatforms zijn; niet alleen de publicatie- en copyrightregels, maar ook de platformfunctionaliteit."

Met het Breaking Barriers-seminar en nu de BioScience paper hopen Tarvin en haar collega's geleidelijk de norm in de wetenschap te veranderen om standaard papers in andere talen te vertalen, met name de taal van het land waar het onderzoek is gedaan en de talen van de co-auteurs.

En hoe meer vertalingen er zijn, hoe meer materiaal er is om machinevertalingssystemen te trainen om beter werk te leveren, waardoor de kwaliteit van wetenschappelijke vertalingen geleidelijk toeneemt.

"In mijn lab vertalen we veel van ons onderzoek, en nu doen mensen in Emma's lab dat ook," zei ze. "Ik denk dat het delen van onze positieve houding hierover en hoe het een verschil kan maken voor mensen een kleine, maar groeiende groep mensen heeft beïnvloed die vertaling in hun wetenschappelijke workflow beginnen op te nemen."

Extra co-auteurs van de BioScience paper omvatten promovendi Valeria Ramírez-Castañeda en Débora Brandt van UC Berkeley; András Báldi van het Instituut voor Ecologie en Plantkunde van het Centrum voor Ecologisch Onderzoek in Vácrátót, Hongarije; postdoctoraal onderzoeker Julie Teresa Shapiro van de Ben-Gurion Universiteit van de Negev in Be'er Sheva, Israël; en Lynne Bowker, hoogleraar vertalen en tolken aan de Universiteit van Ottawa in Canada. + Verder verkennen

Facebook onthult machine learning-vertaler voor 100 talen