Wetenschap
Voorbeeld van een vol videoframe geannoteerd met de nieuwe methode. Krediet:Růžička en Franchetti.
Onderzoekers van de Carnegie Mellon University hebben onlangs een nieuw model ontwikkeld dat snelle en nauwkeurige objectdetectie mogelijk maakt in 4K- en 8K-videobeelden met hoge resolutie met behulp van GPU's. Hun aandachtspijplijnmethode voert een evaluatie in twee fasen uit van elk beeld- of videoframe onder een ruwe en verfijnde resolutie, het totale aantal noodzakelijke evaluaties te beperken.
In recente jaren, machine learning heeft opmerkelijke resultaten behaald bij computervisietaken, inclusief objectdetectie. Echter, de meeste objectherkenningsmodellen presteren doorgaans het beste op afbeeldingen met een relatief lage resolutie. Aangezien de resolutie van opnameapparatuur snel verbetert, er is een toenemende behoefte aan tools die data met een hoge resolutie kunnen verwerken.
"We waren geïnteresseerd in het vinden en overwinnen van de beperkingen van de huidige benaderingen, "Vít Růžička, vertelde een van de onderzoekers die het onderzoek uitvoerden aan TechXplore. "Hoewel veel gegevensbronnen in hoge resolutie opnemen, huidige state-of-the-art objectdetectiemodellen, zoals YOLO, Sneller RCNN, SSD, enzovoort., werk met afbeeldingen met een relatief lage resolutie van ongeveer 608 x 608 px. Ons belangrijkste doel was om de objectdetectietaak te schalen naar 4K-8K-video's (tot 7680 x 4320 px) met behoud van een hoge verwerkingssnelheid. We wilden ook begrijpen of en in hoeverre we kunnen profiteren van een hoge resolutie in vergelijking met het gebruik van afbeeldingen met een lage resolutie, in termen van nauwkeurigheid van de modellen."
De aandachtspijplijn voorgesteld door Růžička en zijn collega Franz Franchetti verdeelt de taak van objectdetectie in twee fasen. In deze beide fasen de onderzoekers onderverdeelden de originele afbeelding door deze te bedekken met een regelmatig raster en pasten vervolgens het model YOLO v2 toe voor snelle objectdetectie.
Resolutieafhandeling op het voorbeeld van 4K-videoframeverwerking. Tijdens de aandachtsstap wordt het beeld onder ruwe resolutie verwerkt, waardoor de onderzoekers kunnen beslissen welke regio's van de afbeelding actief moeten zijn in de uiteindelijke fijnere evaluatie. Krediet:Růžička en Franchetti.
"We creëren veel kleine rechthoekige gewassen, die door YOLO v2 op verschillende serverwerkers kan worden verwerkt, op een parallelle manier, " legt Růžička uit. "In de eerste fase wordt het beeld verkleind naar een lagere resolutie en wordt een snelle objectdetectie uitgevoerd om ruwe begrenzingskaders te krijgen. De tweede fase gebruikt deze begrenzingsvakken als een aandachtskaart om te beslissen waar we de afbeelding onder hoge resolutie moeten controleren. Daarom, wanneer sommige delen van de afbeelding geen interessant object bevatten, we kunnen besparen op het verwerken ervan in hoge resolutie."
De aandachtspijplijn. Stapsgewijze uitsplitsing van het originele beeld onder verschillende effectieve resolutie. Krediet:Růžička en Franchetti.
De onderzoekers implementeerden hun model in code, het verdelen van zijn werk over GPU's. Ze waren in staat om een hoge nauwkeurigheid te behouden terwijl ze een gemiddelde prestatie bereikten van drie tot zes fps op 4K-video's en twee fps op 8K-video's. Hun methode leverde aanzienlijke voordelen op, waarbij de gemeten gemiddelde precisie op de geteste dataset stijgt van 33,6 AP 50 tot 74,3 AP 50 bij het verwerken van afbeeldingen in hoge resolutie in vergelijking met het terugschalen van afbeeldingen naar een lage resolutie, dat is hoe YOLO v2 over het algemeen werkt.
"Onze methode verminderde de tijd die nodig is om afbeeldingen met een hoge resolutie te verwerken met ongeveer 20 procent, vergeleken met het verwerken van elk deel van het originele beeld onder hoge resolutie, "Zei Růžička. "De praktische implicatie hiervan is dat bijna realtime 4K-videoverwerking haalbaar is. Onze methode vereist ook een lager aantal servermedewerkers om deze taak te voltooien."
Ondanks de veelbelovende resultaten van deze nieuwe objectdetectiemethode, het gebruik van een regelmatig raster dat de originele afbeelding overlapt, kan aanleiding geven tot een aantal problemen. Bijvoorbeeld, het kan er soms toe leiden dat gedetecteerde objecten worden gehalveerd, waarvoor een nabewerkingsstap op de gedetecteerde begrenzingsvakken vereist is. Růžička en Franchetti onderzoeken momenteel manieren om deze problemen aan te pakken en te omzeilen om hun model verder te verbeteren.
© 2018 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com