science >> Wetenschap >  >> Elektronica

Facebook-onderzoekers gebruiken wiskunde voor betere vertalingen

Sociale netwerken zoals Facebook zijn op zoek naar efficiënte automatische vertaling voor alle talen van de wereld en kunstmatige intelligentie kan het antwoord bieden

Ontwerpers van hulpmiddelen voor automatische vertaling vertrouwen nog steeds voornamelijk op woordenboeken om een ​​vreemde taal begrijpelijk te maken. Maar nu is er een nieuwe manier:cijfers.

Facebook-onderzoekers zeggen dat het omzetten van woorden in cijfers en het benutten van wiskundige overeenkomsten tussen talen een veelbelovende weg is, zelfs als een universele communicator a la Star Trek een verre droom blijft.

Krachtige automatische vertaling is een grote prioriteit voor internetgiganten. Zoveel mogelijk mensen wereldwijd laten communiceren is niet alleen een altruïstisch doel, maar ook goede zaken.

Facebook, Google en Microsoft, evenals het Russische Yandex, Het Chinese Baidu en anderen proberen voortdurend hun vertaalhulpmiddelen te verbeteren.

Facebook heeft experts op het gebied van kunstmatige intelligentie aan het werk in een van zijn onderzoekslaboratoria in Parijs.

Er worden momenteel tot 200 talen gebruikt op Facebook, zei Antoine Bordes, Europees mededirecteur van fundamenteel AI-onderzoek voor het sociale netwerk.

Automatische vertaling is momenteel gebaseerd op het hebben van grote databases met identieke teksten in beide talen om mee te werken. Maar voor veel talencombinaties zijn er gewoon niet genoeg van dergelijke parallelle teksten.

Daarom zijn onderzoekers op zoek gegaan naar een andere methode, zoals het door Facebook ontwikkelde systeem dat een wiskundige weergave van woorden creëert.

Elk woord wordt een "vector" in een ruimte van enkele honderden dimensies. Woorden die nauwe associaties hebben in de gesproken taal, bevinden zich ook dicht bij elkaar in deze vectorruimte.

Van Baskisch tot Amazonegebied?

"Bijvoorbeeld, als je de woorden 'kat' en 'hond' neemt, semantisch, het zijn woorden die iets soortgelijks beschrijven, dus ze zullen fysiek extreem dicht bij elkaar zijn" in de vectorruimte, zei Guillaume Lample, een van de ontwerpers van het systeem.

"Als je woorden als Madrid neemt, Londen, Parijs, die Europese hoofdsteden zijn, het is hetzelfde idee."

Deze taalkaarten kunnen vervolgens met behulp van algoritmen aan elkaar worden gekoppeld - in eerste instantie grofweg, maar uiteindelijk steeds verfijnder, totdat hele zinnen kunnen worden vergeleken zonder al te veel fouten.

Lample zei dat de resultaten al veelbelovend zijn.

Voor het talenpaar Engels-Roemeens, Het huidige machinevertaalsysteem van Facebook is "gelijk aan of misschien een beetje slechter" dan het woord vectorsysteem, zei Lampel.

Maar voor het zeldzamere talenpaar Engels-Urdu, waar het traditionele systeem van Facebook niet veel tweetalige teksten heeft om naar te verwijzen, het woord vectorsysteem is al superieur, hij zei.

Maar zou de methode vertaling mogelijk kunnen maken van, zeggen, Baskisch in de taal van een Amazone-stam?

In theorie, Ja, zei Lampel, maar in de praktijk is er een grote hoeveelheid geschreven teksten nodig om de taal in kaart te brengen, iets wat ontbreekt in stamtalen uit het Amazonegebied.

"Als je maar tienduizenden zinnen hebt, het zal niet werken. Je hebt enkele honderdduizenden nodig, " hij zei.

'Heilige graal'

Experts van het Franse nationale wetenschappelijke centrum CNRS zeiden dat de benadering die Lample heeft gekozen voor Facebook nuttige resultaten kan opleveren. zelfs als het niet resulteert in perfecte vertalingen.

Thierry Poibeau van het Lattice-laboratorium van CNRS, die ook onderzoek doet naar machinevertaling, noemde het woord vectorbenadering "een conceptuele revolutie".

Hij zei dat "vertalen zonder parallelle gegevens" - woordenboeken of versies van dezelfde documenten in beide talen - "iets van de heilige graal" van machinevertaling is.

"Maar de vraag is welk prestatieniveau kan worden verwacht" van het woord vectormethode, zei Poibeau.

De methode "kan een idee geven van de originele tekst", maar het vermogen tot een goede vertaling blijft onbewezen.

François Yvon, een onderzoeker bij CNRS's Computer Science Laboratory for Mechanics and Engineering Sciences, zei dat "het koppelen van talen veel moeilijker is" wanneer ze ver van elkaar verwijderd zijn.

"De manier om concepten in het Chinees aan te duiden is totaal anders dan in het Frans, " hij voegde toe.

Maar zelfs onvolmaakte vertalingen kunnen nuttig zijn, zei Yvon, en zou voldoende kunnen zijn om haatzaaiende uitlatingen op te sporen, een belangrijke prioriteit voor Facebook.

© 2019 AFP