science >> Wetenschap >  >> Elektronica

Snellere videoherkenning voor het smartphonetijdperk

Een nieuwe techniek voor het trainen van videoherkenningsmodellen is tot drie keer sneller dan de huidige state-of-the-art methoden, terwijl de runtime-prestaties op mobiele apparaten worden verbeterd. Het werk werd onlangs benadrukt door Dario Gil (hierboven), directeur van IBM Research, op de AI Research Week van het MIT-IBM Watson AI Lab in Cambridge, Massachusetts. Foto:Song Han

Een tak van machine learning, deep learning genaamd, heeft computers geholpen om mensen te overtreffen bij goed gedefinieerde visuele taken zoals het lezen van medische scans, maar naarmate de technologie zich uitbreidt naar het interpreteren van video's en gebeurtenissen in de echte wereld, de modellen worden groter en rekenintensief.

Volgens één schatting het trainen van een videoherkenningsmodel kan tot 50 keer meer gegevens en acht keer meer verwerkingskracht vergen dan het trainen van een beeldclassificatiemodel. Dat is een probleem, aangezien de vraag naar verwerkingskracht om deep learning-modellen te trainen exponentieel blijft stijgen en de bezorgdheid over de enorme CO2-voetafdruk van AI toeneemt. Grote modellen voor videoherkenning uitvoeren op mobiele apparaten met een laag stroomverbruik, waar veel AI-toepassingen naartoe gaan, blijft ook een uitdaging.

Lied Han, een assistent-professor bij MIT's Department of Electrical Engineering and Computer Science (EECS), pakt het probleem aan door efficiëntere deep learning-modellen te ontwerpen. In een paper op de International Conference on Computer Vision, Han, MIT-afgestudeerde student Ji Lin en MIT-IBM Watson AI Lab-onderzoeker Chuang Gan, een methode schetsen voor het verkleinen van videoherkenningsmodellen om de training te versnellen en de runtime-prestaties op smartphones en andere mobiele apparaten te verbeteren. Hun methode maakt het mogelijk om het model te verkleinen tot een zesde van de grootte door de 150 miljoen parameters in een state-of-the-art model terug te brengen tot 25 miljoen parameters.

"Ons doel is om AI toegankelijk te maken voor iedereen met een apparaat met een laag energieverbruik, " zegt Han. "Om dat te doen, we moeten efficiënte AI-modellen ontwerpen die minder energie verbruiken en soepel kunnen werken op edge-apparaten, waar zoveel van AI zich beweegt."

De dalende kosten van camera's en videobewerkingssoftware en de opkomst van nieuwe videostreamingplatforms hebben het internet overspoeld met nieuwe inhoud. Elk uur, 30, Alleen al naar YouTube wordt er 000 uur aan nieuwe video geüpload. Tools om die inhoud efficiënter te catalogiseren, zouden kijkers en adverteerders helpen video's sneller te vinden, zeggen de onderzoekers. Dergelijke tools zouden instellingen zoals ziekenhuizen en verpleeghuizen ook helpen om AI-applicaties lokaal uit te voeren, in plaats van in de cloud, om gevoelige gegevens privé en veilig te houden.

Krediet:Massachusetts Institute of Technology

Onderliggende beeld- en videoherkenningsmodellen zijn neurale netwerken, die losjes zijn gemodelleerd naar hoe de hersenen informatie verwerken. Of het nu gaat om een ​​digitale foto of een reeks videobeelden, neurale netten zoeken naar patronen in de pixels en bouwen een steeds abstractere weergave van wat ze zien. Met genoeg voorbeelden, neurale netwerken "leren" mensen te herkennen, voorwerpen, en hoe ze zich verhouden.

Topmodellen voor videoherkenning gebruiken momenteel driedimensionale convoluties om het verstrijken van de tijd te coderen in een reeks afbeeldingen, die grotere, rekenintensievere modellen. Om de betrokken berekeningen te verminderen, Han en zijn collega's ontwierpen een bewerking die ze een tijdelijke verschuivingsmodule noemen, die de feature maps van een geselecteerd videoframe naar de aangrenzende frames verschuift. Door ruimtelijke representaties van het verleden te vermengen, Cadeau, en toekomst, het model krijgt een gevoel van het verstrijken van de tijd zonder het expliciet weer te geven.

Het resultaat:een model dat beter presteerde dan zijn collega's bij het herkennen van acties in de Something-Something-videodataset, de eerste plaats behalen in versie 1 en versie 2, in recente openbare ranglijsten. Een online versie van de shift-module is ook wendbaar genoeg om bewegingen in realtime te lezen. In een recente demo Lin, een doctoraat student in EECS, liet zien hoe een computer met één bord die op een videocamera is gemonteerd, handgebaren onmiddellijk kan classificeren met de hoeveelheid energie om een ​​fietslicht van stroom te voorzien.

Normaal gesproken zou het ongeveer twee dagen duren om zo'n krachtig model te trainen op een machine met slechts één grafische processor. Maar de onderzoekers slaagden erin tijd te lenen op de supercomputer van het Amerikaanse Department of Energy, momenteel de snelste op aarde. Met de extra vuurkracht van Summit, de onderzoekers toonden aan dat met 1, 536 grafische processors kon het model in slechts 14 minuten worden getraind, dicht bij zijn theoretische limiet. Dat is tot drie keer sneller dan ultramoderne 3D-modellen, ze zeggen.

Dario Gil, directeur van IBM Research, benadrukte het werk in zijn recente openingstoespraak op AI Research Week georganiseerd door het MIT-IBM Watson AI Lab.

"Compute-vereisten voor grote AI-trainingsbanen verdubbelen elke 3,5 maand, " zei hij later. "Ons vermogen om de grenzen van de technologie te blijven verleggen, zal afhangen van strategieën zoals deze die hyperefficiënte algoritmen combineren met krachtige machines."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.