Wetenschap
Vergelijking van dieptevoorspellingsmodellen met een videoclip met bewegende camera's en mensen. Krediet:Google
Wie zei dat de virale rage genaamd Mannequin Challenge (MC) voorbij is? Niet zo. Onderzoekers hebben zich tot de Challenge gekeerd die in 2016 de aandacht trok om hun doel te dienen. Ze gebruikten de MC voor het trainen van een neuraal netwerk dat diepte-informatie uit de video's kan reconstrueren.
"De diepten van bewegende mensen leren door naar bevroren mensen te kijken" is de naam van hun paper, nu op arXiv, geschreven door Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavelly, Ce Liu en William Freeman. De paper is in april van dit jaar ingediend.
De Mannequin-uitdaging? Wie kan het vergeten? Dit was een YouTube-trend die viraal ging. Anthony Alford in InfoQ bracht lezers terug naar 2016, toen een internetmeme mensen liet samenwerken in groepen die zich voordeden als mannequins. Ze waren "bevroren", maar een videograaf maakte bewegingen rond de scène door een video vanuit verschillende hoeken te maken.
Alford schreef, omdat de camera beweegt en de rest van de scène statisch is, parallax-methoden kunnen gemakkelijk nauwkeurige dieptekaarten van menselijke figuren in verschillende poses reconstrueren.
Zoals de auteurs stelden, de video's waren bevriezing in diverse, natuurlijke houdingen, terwijl een draagbare camera het toneel toerde.
Voor het trainen van het neurale netwerk, het team zette 2 om, 000 van de video's in 2D-beelden met dieptegegevens met hoge resolutie.
Alford zei dat van de 2, 000 YouTube MC-video's, een dataset werd geproduceerd van 4, 690 sequenties met in totaal meer dan 170K geldige beelddiepte-paren. Het doel van het leersysteem was de bekende dieptekaart voor het invoerbeeld, berekend uit de MC-video's. De DNN leerde het invoerbeeld te nemen, initiële dieptekaart, en menselijk masker, en voer een "verfijnde" dieptekaart uit waar de dieptewaarden van mensen werden ingevuld.
Christine Visser, Engadget :"Om het neurale netwerk te trainen, de onderzoekers zetten de clips om in 2D-beelden, schatte de camerahouding en maakte dieptekaarten. De AI was vervolgens in staat om de diepte van bewegende objecten in video's te voorspellen met een hogere nauwkeurigheid dan voorheen mogelijk was."
De uitdaging aangaan werd in mei beschreven door twee van de co-auteurs van de paper in een Google-blog.
"Omdat de hele scène stilstaat (alleen de camera beweegt), op triangulatie gebaseerde methoden - zoals multi-view-stereo (MVS) - werken, en we kunnen nauwkeurige dieptekaarten krijgen voor de hele scène, inclusief de mensen erin. We verzamelden ongeveer 2000 van dergelijke video's, een breed scala aan realistische scènes met mensen die van nature poseren in verschillende groepsconfiguraties." Tali Dekel, onderzoekswetenschapper en Forrester Cole, software ontwikkelaar, machine perceptie, schreven meer over de uitdaging die ze aangingen.
"Het menselijke visuele systeem heeft een opmerkelijk vermogen om onze 3D-wereld te begrijpen vanuit zijn 2D-projectie. Zelfs in complexe omgevingen met meerdere bewegende objecten, mensen zijn in staat om een haalbare interpretatie van de geometrie en diepteordening van de objecten te behouden. Het gebied van computervisie heeft lang bestudeerd hoe vergelijkbare mogelijkheden kunnen worden bereikt door de geometrie van een scène computationeel te reconstrueren uit 2D-beeldgegevens, maar robuuste reconstructie blijft in veel gevallen moeilijk."
Waarom dit belangrijk is:"Hoewel er een recente toename is in het gebruik van machine learning voor dieptevoorspelling, dit werk is het eerste dat een op leren gebaseerde benadering afstemt op het geval van gelijktijdige camera- en menselijke beweging, " zeiden ze in de blog van mei. "In dit werk, we richten ons specifiek op mensen omdat ze een interessant doelwit zijn voor augmented reality en 3D-video-effecten."
Over resultaten gesproken, Karen Hao, MIT Technology Review , zei dat de onderzoekers 2 hebben omgezet, 000 van de video's in 2D-afbeeldingen met dieptegegevens in hoge resolutie en gebruikten ze om een neuraal netwerk te trainen. Het was toen in staat om de diepte van bewegende objecten in een video te voorspellen met een veel hogere nauwkeurigheid dan mogelijk was met eerdere state-of-the-art methoden.
© 2019 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com