science >> Wetenschap >  >> Elektronica

Google wordt meertaliger, maar krijgt het de nuance?

Een leerling kleurt een vos tijdens Quechua Inheemse taalles gericht op dierennamen op een openbare basisschool in Licapa, Peru, woensdag 1 september 2021. Ongeveer 10 miljoen mensen spreken Quechua, maar proberen e-mails en sms-berichten automatisch te vertalen in de meest gesproken inheemse taalfamilie in Amerika was bijna onmogelijk voordat Google het op woensdag 11 mei 2022 in zijn digitale vertaaldienst introduceerde. De internetgigant zegt dat nieuwe kunstmatige-intelligentietechnologie het Google Translate-repertoire van 's werelds talen, en deze week zijn er nog 24 toegevoegd, waaronder Quechua en andere inheemse Zuid-Amerikaanse talen zoals Guarani en Aymara. Krediet:AP Foto/Martin Mejia, Bestand

Ongeveer 10 miljoen mensen spreken Quechua, maar het was lang zo goed als onmogelijk om e-mails en sms-berichten automatisch te vertalen naar de meest gesproken inheemse taalfamilie in Amerika.

Dat veranderde op woensdag, toen Google Quechua en een aantal andere talen aan zijn digitale vertaalservice toevoegde.

De internetgigant zegt dat nieuwe kunstmatige intelligentietechnologie het mogelijk maakt om het repertoire van Google Translate van 's werelds talen enorm uit te breiden. Deze week zijn er 24 toegevoegd, waaronder Quechua en andere inheemse Zuid-Amerikaanse talen zoals Guarani en Aymara. Het voegt ook een aantal veel gesproken Afrikaanse en Zuid-Aziatische talen toe die in populaire technische producten ontbraken.

"We hebben gekeken naar talen met zeer grote, achtergestelde populaties", vertelde Google-onderzoeker Isaac Caswell aan verslaggevers.

Het nieuws van de jaarlijkse I/O-technologieshow van het bedrijf uit Californië kan in veel uithoeken van de wereld worden gevierd. Maar het zal waarschijnlijk ook kritiek krijgen van degenen die gefrustreerd zijn door eerdere technische producten die de nuances van hun taal of cultuur niet begrepen.

Quechua was de lingua franca van het Inca-rijk, dat zich uitstrekte van wat nu Zuid-Colombia is tot centraal Chili. Zijn status begon te dalen na de Spaanse verovering van Peru meer dan 400 jaar geleden.

Het toevoegen aan de door Google erkende talen is een grote overwinning voor Quechua-taalactivisten zoals Luis Illaccanqui, een Peruaan die de website Qichwa 2.0 heeft gemaakt, met woordenboeken en bronnen voor het leren van de taal.

"Het zal ervoor zorgen dat Quechua en Spaans dezelfde status krijgen", zegt Illaccanqui, die niet betrokken was bij het project van Google.

Illaccanqui, wiens achternaam in het Quechua betekent "jij bent de bliksemschicht", zei dat de vertaler ook zal helpen de taal levend te houden met een nieuwe generatie jonge mensen en tieners, "die Quechua en Spaans tegelijkertijd spreken en gefascineerd zijn door sociale netwerken."

Leraar Carmen Cazorla schrijft in de Quechua-inheemse taal tijdens een les over geneeskrachtige planten op een openbare basisschool in Licapa, Peru, woensdag 1 september 2021. Ongeveer 10 miljoen mensen spreken Quechua, maar proberen e-mails en sms-berichten automatisch te vertalen in de meest gesproken inheemse taalfamilie in Amerika was bijna onmogelijk voordat Google het op woensdag 11 mei 2022 in zijn digitale vertaaldienst introduceerde. De internetgigant zegt dat nieuwe kunstmatige-intelligentietechnologie het mogelijk maakt om het repertoire van de wereldtalen van Google Translate enorm uit te breiden , en deze week kwamen er nog 24 bij, waaronder Quechua en andere inheemse Zuid-Amerikaanse talen zoals Guarani en Aymara. Krediet:AP Photo/Martin Mejia

Caswell noemde het nieuws een "zeer grote technologische stap voorwaarts", omdat het tot voor kort niet mogelijk was om talen toe te voegen als onderzoekers niet genoeg online tekst konden vinden, zoals digitale boeken, kranten of posts op sociale media, voor hun AI-systemen om van te leren.

Amerikaanse techgiganten hebben geen geweldige staat van dienst om hun taaltechnologie goed te laten werken buiten de rijkste markten, een probleem dat het voor hen ook moeilijker maakte om gevaarlijke verkeerde informatie op hun platforms te detecteren. Tot deze week werd Google Translate aangeboden in Europese talen zoals Fries, Maltees, IJslands en Corsicaans, elk met minder dan 1 miljoen sprekers, maar niet in Oost-Afrikaanse talen zoals Oromo en Tigrinya, die miljoenen sprekers hebben.

De nieuwe talen worden deze week uitgerold. Ze worden nog niet begrepen door de stemassistent van Google, waardoor ze voorlopig beperkt zijn tot tekst-naar-tekstvertalingen. Google zei dat het werkt aan het toevoegen van spraakherkenning en andere mogelijkheden, zoals het kunnen vertalen van een bord door er een camera op te richten.

Dat zal belangrijk zijn voor grotendeels gesproken talen zoals Quechua, vooral op gezondheidsgebied, omdat veel Peruaanse artsen en verpleegkundigen die alleen Spaans spreken op het platteland werken en "patiënten die voornamelijk Quechua spreken niet kunnen begrijpen", zei Illaccanqui.

"De volgende grens, of uitdaging, is om aan spraak te werken", zegt Arturo Oncevay, een Peruaans onderzoeker naar machinevertaling aan de Universiteit van Edinburgh, die medeoprichter was van een onderzoekscoalitie om de inheemse taaltechnologie in Noord- en Zuid-Amerika te verbeteren. "De moedertalen van Amerika zijn traditioneel mondeling."

In zijn aankondiging waarschuwde Google dat de kwaliteit van vertalingen in de nieuw toegevoegde talen "nog steeds ver achterblijft" bij andere talen die het ondersteunt, zoals Engels, Spaans en Duits, en merkte op dat de modellen "fouten zullen maken en hun eigen vooroordelen zullen vertonen. " Maar het bedrijf voegde alleen talen toe als zijn AI-systemen aan een bepaalde vaardigheidsdrempel voldeden, zei Caswell.

"Als er een aanzienlijk aantal gevallen is waarin het erg verkeerd is, dan zouden we het niet opnemen", zei hij. "Zelfs als 90% van de vertalingen perfect zijn, maar 10% onzin, dat is ons een beetje te veel."

Google zei dat zijn producten nu 133 talen ondersteunen. De laatste 24 zijn de grootste batch die is toegevoegd sinds Google in 2010 16 nieuwe talen incorporeerde. Wat de uitbreiding mogelijk maakte, is wat Google een "zero-shot" of "zero-resource" machinevertaalmodel noemt - een model dat leert om vertalen in een andere taal zonder er ooit een voorbeeld van te zien.

Facebook en Instagram moederbedrijf Meta introduceerde vorig jaar een soortgelijk concept genaamd de Universal Speech Translator.

Boeken die zijn geschreven in de Quechua-inheemse taal zitten achter een student tijdens een les over geneeskrachtige planten, op een openbare basisschool in Licapa, Peru, woensdag 1 september 2021. Ongeveer 10 miljoen mensen spreken Quechua, maar proberen automatisch e-mails en sms-berichten naar de meest gesproken inheemse taalfamilie in Amerika was bijna onmogelijk voordat Google het op woensdag 11 mei 2022 in zijn digitale vertaaldienst introduceerde. De internetgigant zegt dat nieuwe kunstmatige-intelligentietechnologie het mogelijk maakt om het repertoire van Google Translate enorm uit te breiden talen van de wereld, en deze week zijn er nog 24 toegevoegd, waaronder Quechua en andere inheemse Zuid-Amerikaanse talen zoals Guarani en Aymara. Krediet:AP Photo/Martin Mejia

Het model van Google werkt door een "enkel gigantisch neuraal AI-model" te trainen op ongeveer 100 datarijke talen en vervolgens toe te passen wat het heeft geleerd op honderden andere talen die het niet kent, zei Caswell. "Stel je voor dat je een of andere grote polyglot bent en dan romans in een andere taal begint te lezen, dan kun je op basis van je kennis van de taal in het algemeen gaan bedenken wat het zou kunnen betekenen," zei hij.

Hij zei dat de nieuwe groep varieert van kleinere talen zoals Mizo, gesproken in het noordoosten van India door ongeveer 800.000 mensen, tot meer algemeen gesproken talen zoals Lingala, gesproken door ongeveer 45 miljoen mensen in Centraal-Afrika.

Het was meer dan 15 jaar geleden - in 2006 - dat Microsoft positieve aandacht kreeg in Zuid-Amerika met een softwarefunctie die vertrouwde Microsoft-menu's en -commando's in het Quechua vertaalt. Maar dat was vóór de huidige golf van AI-verbeteringen in realtime vertaling.

Taalwetenschapper Américo Mendoza-Mori van de Universiteit van Harvard, die Quechua spreekt, zei dat het krijgen van de aandacht van Google de taal zichtbaar maakt in plaatsen zoals Peru, waar Quechua-sprekers nog steeds ontbreken in veel openbare diensten. Het voortbestaan ​​van veel van deze talen "hangt af van hun gebruik in digitale contexten", zei hij.

Een andere taalwetenschapper, Roberto Zariquiey, zei dat hij sceptisch is over het feit dat Google een effectieve taalrevitalisatietool voor Quechua, Aymara of Guarani zou kunnen maken zonder nauwere deelname van gemeenschapsgroepen in de regio.

"Talen zijn nauw verbonden met levens, culturen, etnische groepen en politieke organisaties", zegt Zariquiey, een taalkundige aan de Pauselijke Katholieke Universiteit van Peru. "Hier moet rekening mee worden gehouden."

—-

De nieuwe toegevoegde talen zijn:Assamees, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sanskriet, Sepedi, Sorani Koerdisch, Tigrinya, Tsonga en Twi.