science >> Wetenschap >  >> Elektronica

Nieuwe technologie voor machinevertaling nu beschikbaar

Krediet:CC0 Publiek Domein

Via de Universiteit van Amsterdam is deze maand een nieuwe methode beschikbaar gekomen om machinevertaling te verbeteren. Het project DatAptor, gefinancierd door NWO/STW, verbetert steeds vaker vertaalmachines door datasets te selecteren.

De methodiek wordt gebruikt in de applicatie Matching Data, aangeboden door TAUS, een belangrijke denktank op het gebied van machinevertaling. Deze applicatie pakt een grote uitdaging binnen het digitaal vertalen aan:voor een goede vertaling is het noodzakelijk om de vertaalmachine te trainen met betrouwbare bronnen en datasets die de relevante woordsoort bevatten. Bijvoorbeeld, het vertalen van een juridische tekst vraagt ​​een heel ander vocabulaire en een ander soort vertaling dan bijvoorbeeld, een krantenbericht.

Succesvolle implementatie

In 2013 heeft het DatAptor-project, begeleid door prof.dr. Khalil Sima'an van het UvA Instituut voor Logica, Taal en rekenen, financiering ontvangen van Technologiestichting STW (nu:NWO-domein Toegepaste en Technische Wetenschappen) om dit probleem aan te pakken. De onderzoeksresultaten van het DatAptor-project zijn inmiddels succesvol geïmplementeerd door denktank TAUS. Zij bieden de nieuwe technologie aan onder de naam Matching Data.

Op de weblog van TAUS zegt Sima'an:"Onze droom was om het world wide web zelf de bron van alle dataselecties te maken. Maar we besloten om bescheidener te beginnen en eerst de zeer grote TAUS Data-repository ons jachtveld te maken. In DatAptor we hebben geleerd dat elk domein een mengsel is van vele subdomeinen. De combinatoriek van subdomeinen in een zeer grote repository herbergt een schat aan nieuwe, ongebruikte selecties. Daarom, als de gebruiker een Query-corpus levert dat zijn interessegebied vertegenwoordigt, de Matching Data-methode zal waarschijnlijk een geschikte selectie vinden in de repository."