science >> Wetenschap >  >> Elektronica

Computers helpen de gaten tussen videoframes op te vullen

Krediet:CC0 Publiek Domein

Gegeven slechts een paar frames van een video, mensen kunnen meestal vermoeden wat er gebeurt en zal gebeuren op het scherm. Als we een vroeg frame van gestapelde blikken zien, een middelste frame met een vinger aan de basis van de stapel, en een laat frame met de blikken omgevallen, we kunnen raden dat de vinger de blikjes heeft omgestoten. Computers, echter, worstelen met dit begrip.

In een paper die deze week wordt gepresenteerd op de Europese conferentie over computervisie, MIT-onderzoekers beschrijven een add-on-module die kunstmatige-intelligentiesystemen, convolutionele neurale netwerken genaamd, helpt. of CNN's, om de hiaten tussen videoframes op te vullen om de activiteitsherkenning van het netwerk aanzienlijk te verbeteren.

De module van de onderzoekers, genaamd Temporal Relation Network (TRN), leert hoe objecten in een video op verschillende tijdstippen veranderen. Het doet dit door een paar sleutelframes te analyseren die een activiteit in verschillende stadia van de video weergeven, zoals gestapelde objecten die vervolgens worden neergehaald. Met behulp van hetzelfde proces, het kan dan hetzelfde type activiteit in een nieuwe video herkennen.

Bij experimenten, de module presteerde ruimschoots beter dan bestaande modellen bij het herkennen van honderden basisactiviteiten, zoals het porren van voorwerpen om ze te laten vallen, iets in de lucht gooien, en het geven van een duim omhoog. Het voorspelde ook nauwkeuriger wat er daarna in een video zal gebeuren:bijvoorbeeld, twee handen die een klein scheurtje maken in een vel papier - gezien slechts een klein aantal vroege frames.

Op een dag, de module kan worden gebruikt om robots te helpen beter te begrijpen wat er om hen heen gebeurt.

"We hebben een kunstmatige-intelligentiesysteem gebouwd om de transformatie van objecten te herkennen, in plaats van het uiterlijk van objecten, " zegt Bolei Zhou, een voormalig Ph.D. student in het Computer Science and Artificial Intelligence Laboratory (CSAIL) die nu assistent-professor computerwetenschappen is aan de Chinese Universiteit van Hong Kong. "Het systeem doorloopt niet alle frames - het pikt keyframes op en, met behulp van de temporele relatie van frames, herkennen wat er aan de hand is. Dat verbetert de efficiëntie van het systeem en zorgt ervoor dat het realtime nauwkeurig draait."

Co-auteurs van het artikel zijn CSAIL-hoofdonderzoeker Antonio Torralba, die tevens hoogleraar is bij de vakgroep Elektrotechniek en Informatica; CSAIL hoofdonderzoeker Aude Oliva; en CSAIL onderzoeksassistent Alex Andonian.

Sleutelframes ophalen

Twee veelgebruikte CNN-modules die tegenwoordig worden gebruikt voor activiteitsherkenning, hebben nadelen op het gebied van efficiëntie en nauwkeurigheid. Eén model is nauwkeurig, maar moet elk videoframe analyseren voordat een voorspelling kan worden gedaan, wat rekenkundig duur en traag is. De andere soort, zogenaamde twee-stream netwerk, is minder nauwkeurig, maar efficiënter. Het gebruikt één stream om functies van één videoframe te extraheren, en voegt de resultaten vervolgens samen met "optische stromen, " een stroom van geëxtraheerde informatie over de beweging van elke pixel. Optische stromen zijn ook rekenkundig duur om te extraheren, dus het model is nog steeds niet zo efficiënt.

"We wilden iets dat tussen die twee modellen in werkt:efficiëntie en nauwkeurigheid, "zegt Zhou.

De onderzoekers trainden en testten hun module op drie crowdsourced datasets van korte video's van verschillende uitgevoerde activiteiten. De eerste dataset, genaamd iets-iets, gebouwd door het bedrijf TwentyBN, heeft meer dan 200, 000 video's in 174 actiecategorieën, zoals een voorwerp porren zodat het omvalt of een voorwerp optillen. De tweede dataset, Nar, bevat bijna 150, 000 video's met 27 verschillende handgebaren, zoals een duim omhoog geven of naar links vegen. De derde, Charades, gebouwd door Carnegie Mellon University-onderzoekers, heeft bijna 10, 000 video's van 157 gecategoriseerde activiteiten, zoals het dragen van een fiets of het spelen van basketbal.

Wanneer een videobestand wordt gegeven, de module van de onderzoekers verwerkt tegelijkertijd geordende frames - in groepen van twee, drie, en vier - enige tijd uit elkaar. Vervolgens wijst het snel een waarschijnlijkheid toe dat de transformatie van het object over die frames overeenkomt met een specifieke activiteitsklasse. Bijvoorbeeld, als het twee frames verwerkt, waarbij het latere frame een object onderaan het scherm toont en het eerdere frame het object bovenaan, het zal een hoge waarschijnlijkheid toewijzen aan de activiteitsklasse, "object naar beneden verplaatsen." Als een derde frame het object in het midden van het scherm toont, die kans neemt nog meer toe, enzovoort. Van dit, het leert objecttransformatiekenmerken in frames die het meest een bepaalde activiteitsklasse vertegenwoordigen.

Herkennen en voorspellen van activiteiten

Bij het testen, een CNN uitgerust met de nieuwe module herkende nauwkeurig veel activiteiten met behulp van twee frames, maar de nauwkeurigheid nam toe door meer frames te samplen. voor nar, de module behaalde een topnauwkeurigheid van 95 procent in activiteitsherkenning, het verslaan van verschillende bestaande modellen.

Het raadde zelfs goed op ambigue classificaties:iets-iets, bijvoorbeeld, omvatte acties zoals 'doen alsof je een boek opent' versus 'een boek openen'. Om onderscheid te maken tussen de twee, de module heeft zojuist nog een paar keyframes gesampled, die onthulde, bijvoorbeeld, een hand bij een boek in een vroege lijst, dan op het boek, vervolgens verwijderd van het boek in een later frame.

Sommige andere activiteitenherkenningsmodellen verwerken ook sleutelframes, maar houden geen rekening met temporele relaties in frames, wat hun nauwkeurigheid vermindert. De onderzoekers melden dat hun TRN-module in bepaalde tests bijna in nauwkeurigheid verdubbelt ten opzichte van die keyframe-modellen.

De module presteerde ook beter dan modellen bij het voorspellen van een activiteit, beperkte frames gegeven. Nadat de eerste 25 procent van de frames is verwerkt, de module behaalde een nauwkeurigheid die enkele procentpunten hoger lag dan een basismodel. Met 50 procent van de frames, het bereikte een 10 tot 40 procent hogere nauwkeurigheid. Voorbeelden zijn onder meer bepalen dat een papier een klein beetje scheurt, gebaseerd op hoe twee handen op het papier zijn gepositioneerd in vroege frames, en voorspellen dat een opgestoken hand, naar voren gericht getoond, naar beneden zou vegen.

"Dat is belangrijk voor robotica-toepassingen, " zegt Zhou. "Je wilt dat [een robot] anticipeert en voorspelt wat er in een vroeg stadium zal gebeuren, wanneer u een specifieke actie uitvoert."

Volgende, de onderzoekers willen de verfijning van de module verbeteren. De eerste stap is het implementeren van objectherkenning samen met activiteitherkenning. Vervolgens, hopen ze toe te voegen aan "intuïtieve fysica, " wat betekent dat het helpt om de fysieke eigenschappen van objecten in de echte wereld te begrijpen. "Omdat we veel van de natuurkunde in deze video's kennen, we kunnen een module trainen om dergelijke natuurkundige wetten te leren en die te gebruiken bij het herkennen van nieuwe video's, " zegt Zhou. "We openen ook alle code en modellen. Het begrijpen van activiteiten is op dit moment een opwindend gebied van kunstmatige intelligentie."