Wetenschap
AFBEELDING 1:Een volledig op gebeurtenissen gebaseerd stereovisiesysteem bestaande uit een paar Dynamic Vision Sensors (links) die hun output naar een cluster van TrueNorth-processors (rechts) sturen. Krediet:IBM
De Brain-Inspired Computing-groep bij IBM Research-Almaden zal op de IEEE Conference on Computer Vision and Pattern Recognition 2018 (CVPR 2018) ons meest recente paper met de titel "A Low Power, Hoge doorvoer, Volledig op gebeurtenissen gebaseerd stereosysteem." Het artikel beschrijft een end-to-end stereovisiesysteem dat uitsluitend gebruikmaakt van neuraal netwerkberekeningen en kan draaien op neuromorfe hardware met een live streaming-spiking-invoer. Geïnspireerd door het menselijke visiesysteem, het maakt gebruik van een cluster van IBM TrueNorth-chips en een paar digitale retinasensoren (ook bekend als Dynamic Vision Sensors, DVS) om de diepte van snel bewegende objecten in een scène te extraheren. Ons systeem legt scènes vast in 3D met een laag stroomverbruik, lage latentie en hoge doorvoer, die het potentieel heeft om het ontwerp van intelligente systemen vooruit te helpen.
Wat is stereovisie?
Stereovisie is de perceptie van diepte en 3D-structuur. Als je naar een voorwerp kijkt, bijvoorbeeld, je ogen produceren er twee ongelijksoortige beelden van omdat hun posities enigszins verschillen. De verschillen tussen de twee afbeeldingen worden in de hersenen verwerkt om informatie te genereren over de locatie en afstand van het object. Ons systeem repliceert deze mogelijkheid voor computers. De relatieve posities van een object in beelden van de twee sensoren worden vergeleken, en de locatie van het object in de 3D-ruimte wordt berekend via triangulatie van die gegevens.
Stereo vision-systemen worden gebruikt in intelligente systemen voor industriële automatisering (voltooiingstaken zoals binpicking, 3D objectlokalisatie, meting van volume en auto-onderdelen), autonoom rijden, mobiele robotica-navigatie, toezicht, augmented reality, en andere doeleinden.
Neuromorfe technologie
Ons stereovisiesysteem is uniek omdat het volledig is geïmplementeerd op event-based digitale hardware (TrueNorth neurosynaptische processors), met behulp van een volledig op grafieken gebaseerd niet-von-Neumann-berekeningsmodel, zonder kader, reeksen, of enige andere dergelijke gemeenschappelijke gegevensstructuren. Dit is de eerste keer dat een end-to-end realtime stereopijplijn volledig is geïmplementeerd op event-based hardware die is aangesloten op een vision-sensor. Ons werk laat zien hoe een diverse reeks gemeenschappelijke subroutines die nodig zijn voor stereovisie (rectificatie, multi-schaal ruimte-tijd stereo correspondentie, de winnaar krijgt alles, en dispariteitsregularisatie) kunnen efficiënt worden geïmplementeerd op een neuraal netwerk met pieken. Deze architectuur verbruikt veel minder stroom dan conventionele systemen, die het ontwerp van autonome mobiele systemen ten goede kunnen komen.
Verder, in plaats van conventionele videocamera's, die een scène vastleggen als een reeks frames, we gebruiken een paar DVS-camera's, die alleen reageren op veranderingen in de scène. Dit resulteert in minder gegevens, lager energieverbruik, hoge snelheid, lage latentie, en goed dynamisch bereik, die allemaal ook de sleutel zijn tot het ontwerp van realtime-systemen.
Zowel de processors als de sensoren bootsen menselijke neurale activiteit na door gegevens weer te geven als asynchrone gebeurtenissen. net als neuron spikes in de hersenen. Ons systeem bouwt voort op het vroege invloedrijke werk van Misha Mahowald bij het ontwerpen van neuromorfe systemen. De Brain-Inspired Computing-groep ontwierp eerder een op gebeurtenissen gebaseerd systeem voor gebarenherkenning met vergelijkbare technologie.
Ons end-to-end stereosysteem verbindt een paar DVS-gebeurteniscamera's (iniLabs DAVIS240C-modellen) via USB met een laptop, die de berekening via ethernet distribueert naar een cluster van negen TrueNorth-processors. Elke TrueNorth-processor is verantwoordelijk voor de stereodispariteitsberekeningen op een subset van de invoer. Met andere woorden, dit is een scale-out benadering van de berekening van stereo, aangezien het systeem het mogelijk maakt, in principe, de toevoeging van veel meer TrueNorth-processors om grotere invoer te verwerken.
AFBEELDING 2:Uitvoer van een conventionele op frames gebaseerde camera (links) versus Dynamic Vision Sensors (rechts) voor een roterende ventilator. De Dynamic Vision Sensors produceren scherpere randen voor snel bewegende objecten. Krediet:IBM Blog Research
De DAVIS-camera's hebben twee 3,5 mm audio-aansluitingen, waardoor de gebeurtenissen die door de twee sensoren worden geproduceerd, kunnen worden gesynchroniseerd. Dit is essentieel voor het systeemontwerp. De dispariteitsuitgangen van de TrueNorth-chips worden vervolgens teruggestuurd naar de laptop, die de ongelijkheidswaarden omzet in werkelijke 3D-coördinaten. Een op openGL gebaseerde visualizer die op de laptop draait, stelt de gebruiker in staat om de gereconstrueerde scène vanuit elk gezichtspunt te visualiseren. De live-feedversie van het systeem dat draait op negen TrueNorth-chips blijkt 400 dispariteitskaarten per seconde te berekenen met een latentie van maximaal 11 ms en een ~200x verbetering in termen van vermogen per pixel per dispariteitskaart vergeleken met de dichtstbijzijnde staat van -de kunst. Verder, de mogelijkheid om dit te verhogen tot 2, 000 verschillen per seconde (onder voorbehoud van bepaalde compromissen) wordt in het document besproken.
AFBEELDING 3:Dieptereconstructie voor een draaiende ventilator vanuit de cameraweergave (boven) en vanuit een schuine weergave (onder). Krediet:IBM
Wetenschap © https://nl.scienceaq.com