science >> Wetenschap >  >> Elektronica

Intel-onderzoekers ontwikkelen oogcontactcorrectiesysteem voor videochats

Oogcontactcorrectie:in het invoerkader (links) kijkt de gebruiker naar het scherm. In het outputframe (rechts) wordt zijn blik gecorrigeerd om in de camera te kijken. Krediet:Isikdogan, Gerasimow &Michael.

Wanneer u deelneemt aan een videogesprek of conferentie, het is vaak moeilijk om direct oogcontact te houden met andere deelnemers, omdat hiervoor in de camera moet worden gekeken in plaats van naar het scherm. Hoewel de meeste mensen regelmatig gebruikmaken van videobeldiensten, tot dusver, er is geen wijdverbreide oplossing voor dit probleem.

Een team van onderzoekers bij Intel heeft onlangs een oogcontactcorrectiemodel ontwikkeld dat zou kunnen helpen deze overlast te overwinnen door oogcontact in live videochats te herstellen, ongeacht waar de camera en het scherm van een apparaat zich bevinden. In tegenstelling tot eerder voorgestelde benaderingen, dit model centreert automatisch de blik van een persoon zonder dat er invoer nodig is die de omleidingshoek of de camera/display/gebruikersgeometrie specificeert.

"Het belangrijkste doel van ons project is om de kwaliteit van videoconferentie-ervaringen te verbeteren door het gemakkelijker te maken om oogcontact te houden, "Leo Isikdogan, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Het is moeilijk om oogcontact te houden tijdens een videogesprek, omdat het niet natuurlijk is om tijdens een gesprek in de camera te kijken. Mensen kijken naar het beeld van de andere persoon op hun scherm, of soms kijken ze zelfs naar hun eigen voorbeeldafbeelding, maar niet in de camera. Met deze nieuwe functie voor oogcontactcorrectie, gebruikers zullen in staat zijn om een ​​natuurlijk face-to-face gesprek te hebben."

Het belangrijkste doel van het onderzoek van Isikdogan en zijn collega's was het creëren van een natuurlijke videochatervaring. Om dit te behalen, ze wilden alleen dat hun oogcontactcorrectiefunctie werkte wanneer een gebruiker in gesprek was, in plaats van wanneer ze hun ogen van nature van het scherm afhouden (bijvoorbeeld wanneer ze naar papier kijken of objecten in hun omgeving manipuleren).

"Oogcontactcorrectie en blikomleiding in het algemeen, zijn geen nieuwe onderzoeksideeën, " Zei Isikdogan. "Veel onderzoekers hebben modellen voorgesteld om te manipuleren waar mensen naar kijken in afbeeldingen. Echter, sommige hiervan vereisen speciale hardware-instellingen, anderen hebben aanvullende informatie van de gebruiker nodig, zoals in welke richting en hoeveel de omleiding moet zijn, en anderen gebruiken computationeel dure processen die alleen haalbaar zijn voor het verwerken van vooraf opgenomen video's."

Het nieuwe systeem ontwikkeld door Isikdogan en zijn collega's maakt gebruik van een diep convolutief neuraal netwerk (CNN) om de blik van een persoon om te leiden door de ogen in de invoerframes te verdraaien en af ​​te stemmen. Eigenlijk, de CNN verwerkt een monoculair beeld en produceert een vectorveld en helderheidskaart om de blik van een gebruiker te corrigeren.

In tegenstelling tot eerder voorgestelde benaderingen, hun systeem kan in realtime worden uitgevoerd, out of the box en zonder enige input van gebruikers of speciale hardware. Bovendien, de corrector werkt op verschillende apparaten met verschillende weergaveformaten en cameraposities.

"Onze oogcontactcorrector gebruikt een reeks controlemechanismen die abrupte veranderingen voorkomen en ervoor zorgen dat de oogcontactcorrector elke onnatuurlijke correctie vermijdt die anders griezelig zou zijn, " zei Isikdogan. "Bijvoorbeeld, de correctie wordt soepel uitgeschakeld wanneer de gebruiker knippert of ergens ver weg kijkt."

De onderzoekers trainden hun model bidirectioneel op een grote dataset van synthetisch gegenereerde, fotorealistische en gelabelde afbeeldingen. Vervolgens evalueerden ze de effectiviteit en hoe gebruikers het waarnamen in een reeks blinde tests.

"Onze blinde tests toonden aan dat de meeste mensen niet weten wanneer we ons algoritme in- of uitschakelen, ze zien geen artefacten maar hebben gewoon het gevoel dat ze oogcontact hebben met de persoon met wie ze communiceren, "Gillad Michaël, een andere onderzoeker die bij het onderzoek betrokken was, vertelde TechXplore.

interessant, de onderzoekers merkten op dat hun model ook had geleerd de input-blik te voorspellen (d.w.z. waar het dacht dat een gebruiker keek voordat zijn/haar blik werd gecorrigeerd), ook al is hij daar nooit voor opgeleid. Ze zijn van mening dat deze mogelijkheid een bijproduct kan zijn van de continue omleiding van de blik van een gebruiker naar het midden van het model, zonder aan te geven waar een gebruiker in de eerste plaats naar zocht.

"Het model leidde eenvoudigweg de input-blik af, zodat het deze naar het midden kan verplaatsen, "Isikdogan legde uit. "Daarom, we kunnen het probleem van oogcontactcorrectie aantoonbaar beschouwen als een gedeeltelijke superset van blikvoorspelling."

De bevindingen die door de onderzoekers zijn verzameld, benadrukken ook de waarde van het gebruik van fotorealistische synthetische gegevens om algoritmen te trainen. In feite, hun model behaalde opmerkelijke resultaten, zelfs als het tijdens de training bijna volledig afhankelijk was van door de computer gegenereerde afbeeldingen. De onderzoekers zijn verre van de eersten die experimenteren met synthetische trainingsgegevens, toch is hun onderzoek een verdere bevestiging van het potentieel voor het creëren van hoogpresterende applicaties.

"We hebben ook bevestigd dat het een goede gewoonte is om de omkeerbaarheid van kaarten in gedachten te houden bij het bouwen van modellen die hun invoer manipuleren, " voegde Isikdogan toe. "Bijvoorbeeld, als het model enkele pixels van linksonder naar het midden verplaatst, we zouden het model moeten kunnen vragen om die terug naar linksonder te verplaatsen en een afbeelding te krijgen die er bijna identiek uitziet als de originele afbeelding. Deze aanpak voorkomt dat het model afbeeldingen onherstelbaar wijzigt."

In de toekomst, het door Isikdogan voorgestelde systeem, Michael en hun collega Timo Gerasimow kunnen helpen om videoconferentie-ervaringen te verbeteren, waardoor ze nog dichter bij persoonlijke interacties komen. De onderzoekers zijn nu van plan hun systeem af te ronden, zodat het kan worden toegepast op bestaande videoconferentiediensten.

"We hebben veel moeite gedaan om ervoor te zorgen dat onze oplossing praktisch is en klaar voor gebruik in echte producten, "Zei Michael. "We zouden nu kunnen proberen enkele van de bijproductbevindingen van het algoritme, zoals blikdetectie en betrokkenheidsclassificatie, te verbeteren om aangrenzende use-cases mogelijk te maken."

© 2019 Wetenschap X Netwerk