science >> Wetenschap >  >> Elektronica

Dankzij het generatiequerynetwerk kan de computer een 3D-model met meerdere weergaven maken van 2D-foto's

Een artistieke interpretatie van het papier door S.M. Ali Eslami et al., getiteld "Representatie en weergave van neurale scènes". Krediet:DeepMind

Een team van onderzoekers dat samenwerkt met de DeepMind-divisie van Google in Londen, heeft een zogeheten Generation Query Network (GQN) ontwikkeld:hiermee kan een computer een 3D-model van een scène maken van 2D-foto's die vanuit verschillende hoeken. In hun artikel gepubliceerd in het tijdschrift Wetenschap , het team beschrijft het nieuwe type neuraal netwerksysteem en wat het vertegenwoordigt. Ze bieden ook een meer persoonlijke kijk op hun project in een bericht op hun website. Matthias Zwicker, met de Universiteit van Maryland biedt een perspectief op het werk van het team in hetzelfde tijdschriftnummer.

In de informatica, grote sprongen in systeemtechniek kunnen klein lijken vanwege de schijnbare eenvoud van resultaten - pas wanneer iemand de resultaten toepast, wordt de grote sprong echt erkend. Dit was het geval, bijvoorbeeld, toen de eerste systemen begonnen te verschijnen die in staat waren te luisteren naar wat een persoon zegt en er betekenis uit te halen. In deze nieuwe poging, het team van DeepMind heeft misschien een vergelijkbare sprong gemaakt.

In traditionele computertoepassingen inclusief deep learning-netwerken, een computer moet met de paplepel ingegoten data krijgen om zich te gedragen alsof hij iets heeft geleerd. Dat is niet het geval voor de GQN, die puur leert van observatie, als menselijke baby's. Het systeem kan een real-world scene observeren, zoals blokken op een tafel, en maak er vervolgens een model van dat in staat is om de scène vanuit andere hoeken te laten zien. Op het eerste gezicht, zoals Zwicker opmerkt, dit lijkt misschien niet zo baanbrekend. Pas als je bedenkt wat het systeem moet doen om met die nieuwe invalshoeken te komen, wordt de echte kracht van het systeem duidelijk. Het moet naar de scène kijken en kenmerken afleiden van verstopte objecten die niet kunnen worden waargenomen met alleen 2-D-informatie die door camera's wordt geleverd. Er is geen radar of dieptemeter, of afbeeldingen van hoe blokken eruit zouden moeten zien, opgeslagen in de databanken. Het hoeft alleen maar te werken met de paar foto's die het maakt.

Om dit te bereiken, het team legt uit, omvat het gebruik van twee neurale netwerken, een om de scène te analyseren, de andere om de resulterende gegevens te gebruiken om er een 3D-model van te maken dat kan worden bekeken vanuit hoeken die niet op de foto's worden getoond. Er is nog veel werk aan de winkel, natuurlijk, het duidelijkst, bepalen of het kan worden uitgebreid tot complexere objecten, maar in zijn primitieve vorm, het vertegenwoordigt duidelijk een nieuwe manier om computers te laten leren.

GQN-agent "verbeeldt" nieuwe gezichtspunten in kamers met meerdere objecten. Krediet:DeepMind
GQN-agent opereert in gedeeltelijk waargenomen doolhofomgevingen. Krediet:DeepMind
GQN-agent die de objectrotatietaak van Shepard Metzler uitvoert. Krediet:DeepMind

© 2018 Tech Xplore