Wetenschap
Voorbeeld van opeenvolgende frames die zijn verwerkt met het ROI-verpakkingsmechanisme. Krediet:Athindran et al.
Onderzoekers van het Robert Bosch Center for Data Science and Artificial Intelligence en Center for Computational Brain Research, Indian Institute of Technology Madras, en Purdue University hebben onlangs een nieuwe methode ontwikkeld om de computervereisten voor objectdetectie in video's met behulp van neurale netwerken te verminderen. Hun techniek, genaamd Pack en Detect (PaD), werd uiteengezet in een paper dat vooraf was gepubliceerd op arXiv.
Objectdetectie is een belangrijk aspect van veel computer vision-toepassingen, zoals het volgen van objecten, video samenvatting, en video zoeken. Hoewel recente ontwikkelingen op het gebied van machine learning hebben geleid tot de ontwikkeling van steeds nauwkeurigere tools om deze taak uit te voeren, bestaande methoden zijn rekenkundig nog zeer intensief. Bijvoorbeeld, het verwerken van een video met een resolutie van 300 x 300 met behulp van het SSD300-objectdetectienetwerk, met VGG16 als backbone en met 30 fps vereist 1,87 biljoen drijvende-kommabewerkingen per seconde (FLOPS).
De onderzoekers merkten op dat in sommige gevallen echter, de meeste regio's in een videoframe zijn slechts achtergrond, met opvallende objecten die slechts een klein deel van het gebied in het frame beslaan. In aanvulling, ze vonden dat er een sterke temporele correlatie is tussen opeenvolgende frames. Ze maakten gebruik van deze observaties en stelden een nieuwe techniek voor objectdetectie in video's voor die de rekenkundige vereisten voor objectdetectietaken zou kunnen verminderen.
"We werden geïnspireerd door het foveale mechanisme in zowel biologische als kunstmatige zichtsystemen, "Athindran Ramesh Kumar, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Eerdere pogingen met betrekking tot de foveale aandachtsmechanismen in kunstmatige zichtsystemen richten zich op slechts één regio in het beeld of op één object tegelijk. We vroegen ons af hoe een zichtsysteem zou zijn als het zich zou kunnen concentreren op alle opvallende regio's in de scène tegelijk ."
De door de onderzoekers bedachte objectdetectiemethode is dan ook geïnspireerd op biologische zichtsystemen. Echter, in tegenstelling tot eerdere pogingen, hun systeem verpakt alle interessegebieden samen in een enkel frame, in plaats van ze opeenvolgend te verwerken.
"Het doel van ons werk was om objectdetectie in video's te versnellen door alleen te focussen op de meest opvallende gebieden in het frame en de rommel op de achtergrond te elimineren, "Balaraman Ravindran, een andere onderzoeker die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Voor het elimineren van rommel op de achtergrond, we maakten gebruik van de tijdelijke correlatie tussen aangrenzende frames in een video. Dit is een eigenschap die videocompressietechnieken gebruiken om de opslag- en bandbreedtevereisten te verminderen; we gebruiken het om de berekening te versnellen."
Pad, de door Ravindran en zijn collega's voorgestelde objectdetectiemethode werkt door frames met regelmatige tussenpozen op volledige grootte te verwerken. Deze frames worden "ankerframes" genoemd. In alle andere kaders, anderzijds, de tool identificeert interessegebieden op basis van de locatie waar objecten zich in het vorige frame bevonden.
"Deze interessegebieden zijn samen gerangschikt als in een collage, die wordt gebruikt als ingang voor de objectdetector, "Anand Raghunathan, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "De detecties worden vervolgens teruggezet naar de locaties in de originele afbeelding. Deze methode is sneller omdat de collageafbeeldingen kleiner zijn dan de volledige frames. We maken gebruik van de flexibiliteit van populaire objectdetectoren zoals SSD300 om afbeeldingen op zowel volledige grootte te verwerken en kleinere maten."
De onderzoekers evalueerden hun methode op de ImageNet VID-dataset en ontdekten dat het de tijden met 1,25x versnelde, met een nauwkeurigheidsdaling van minder dan 1,6 procent. In aanvulling, ze merkten op dat de tijd die nodig was om kleinere frames te verwerken bijna drie keer korter was, waarbij de FLOP-telling met vier keer is verminderd.
In aanvulling, hun onderzoek bracht twee belangrijke aspecten aan het licht die zouden kunnen bijdragen aan de ontwikkeling van snellere en minder rekenintensieve methoden voor het detecteren van objecten in video's. Eerst, interessante objecten nemen over het algemeen slechts een klein deel van de pixels in een frame in beslag; tweede, er is een correlatie tussen aangrenzende frames in een video.
"Ons werk kan helpen video-analyse mogelijk te maken op apparaten met beperkte middelen aan de rand van het internet der dingen door de computervereisten te verminderen, of kan het aantal videostreams verbeteren dat door een server in de cloud kan worden verwerkt, ' zei Athindran.
De studie die door dit team van onderzoekers is uitgevoerd, is een eerste stap in de richting van de ontwikkeling van effectievere hulpmiddelen voor objectdetectie. Ze plannen nu verder onderzoek dat hun methode verder zou kunnen verbeteren.
Bijvoorbeeld, momenteel, PaD selecteert ankerframes met regelmatige tussenpozen, toch zouden de onderzoekers een mechanisme kunnen ontwikkelen dat deze sleutelframes dynamisch identificeert. Ze zijn ook van plan om hun techniek te testen in hardware met meer middelen, zoals smartphones, draagbare apparaten en slimme huishoudelijke apparaten.
"We hebben een algoritme met de hand gemaakt om de interessegebieden af te leiden en een collagebeeld te vormen, " zei Ravindran. "Maar een volledig neuraal systeem zou neurale netwerken hebben die het collagebeeld genereren op basis van het vorige frame. Dit is een ambitieuzere lijn van toekomstig werk."
© 2018 Tech Xplore
Wetenschap © https://nl.scienceaq.com