Videosoftwaresysteem synchroniseert lippen met andere talen
Terwijl de huidige vertaalsystemen alleen vertaalde spraakuitvoer of tekstuele ondertitels voor video-inhoud kunnen genereren, het Automatic Face-to-Face Translation-protocol kan de visuele, zodat de stemstijl en lipbeweging overeenkomen met de doeltaal. Prajwal Renukanand
Een team van onderzoekers in India heeft een systeem bedacht om woorden in een andere taal te vertalen en het te laten lijken alsof de lippen van een spreker synchroon met die taal bewegen.
Automatische face-to-face vertaling, zoals beschreven in dit artikel van oktober 2019, is een vooruitgang ten opzichte van tekst-naar-tekst of spraak-naar-spraak vertaling, omdat het niet alleen spraak vertaalt, maar biedt ook een lip-gesynchroniseerd gezichtsbeeld.
Om te begrijpen hoe dit werkt, bekijk de demonstratievideo hieronder, gemaakt door de onderzoekers. Om 6.38 uur, zie je een videoclip van wijlen prinses Diana in een interview uit 1995 met journalist Martin Bashir, uitleggen, "Ik zou graag een koningin van de harten van mensen zijn, in de harten van mensen, maar ik zie mezelf niet als een koningin van dit land."
Een moment later, je zult haar hetzelfde citaat in het Hindi zien uitspreken - met bewegende lippen, alsof ze die taal echt sprak.
"Effectief communiceren over taalbarrières is altijd een grote ambitie geweest van mensen over de hele wereld, " Prajwal KR, een afgestudeerde student in computerwetenschappen aan het International Institute of Information Technology in Hyderabad, Indië, uitleg per e-mail. Hij is de hoofdauteur van het artikel, samen met zijn collega Rudrabha Mukhopadhyay.
"Vandaag, het internet staat vol met pratende gezichtsvideo's:YouTube (300 uur geüpload per dag), online lezingen, videovergaderen, films, tv-programma's en ga zo maar door, "Prajwal, die zijn voornaam draagt, schrijft. "De huidige vertaalsystemen kunnen alleen een vertaalde spraakuitvoer of tekstuele ondertitels genereren voor dergelijke video-inhoud. Ze verwerken de visuele component niet. Als gevolg hiervan, de vertaalde spraak wanneer deze over de video wordt gelegd, de lipbewegingen zouden niet synchroon lopen met de audio.
"Dus, we bouwen voort op de spraak-naar-spraak-vertaalsystemen en stellen een pijplijn voor die een video kan opnemen van een persoon die in een brontaal spreekt en een video kan uitvoeren van dezelfde spreker die in een doeltaal spreekt, zodat de stemstijl en lipbewegingen overeenkomen de spraak in de doeltaal, " zegt Prajwal. "Door dit te doen, het vertaalsysteem wordt holistisch, en zoals blijkt uit onze menselijke evaluaties in dit artikel, verbetert de gebruikerservaring aanzienlijk bij het maken en consumeren van vertaalde audiovisuele inhoud."
Face-to-face vertalen vereist een aantal complexe prestaties. "Gezien een video van een sprekende persoon, we moeten twee belangrijke informatiestromen vertalen:de visuele en de spraakinformatie, " legt hij uit. Dat doen ze in een aantal grote stappen. "Het systeem transcribeert eerst de zinnen in de spraak met behulp van automatische spraakherkenning (ASR). Dit is dezelfde technologie die wordt gebruikt in spraakassistenten (Google Assistant, bijvoorbeeld) op mobiele apparaten." Vervolgens de getranscribeerde zinnen worden vertaald naar de gewenste taal met behulp van Neural Machine Translation-modellen, en vervolgens wordt de vertaling omgezet in gesproken woorden met een tekst-naar-spraak-synthesizer - dezelfde technologie die digitale assistenten gebruiken.
Eindelijk, een technologie genaamd LipGAN corrigeert de lipbewegingen in de originele video om overeen te komen met de vertaalde spraak.