Wetenschap
Krediet:CC0 Publiek Domein
De miniaturisering van videocamera's heeft geleid tot een explosie in het gebruik ervan, inclusief hun opname in een reeks draagbare apparaten zoals headcams, gebruikt in scenario's variërend van sportevenementen tot gewapende gevechten. Om taken te analyseren die met het oog op dergelijke apparaten worden uitgevoerd en om personen die ze gebruiken in realtime te begeleiden, het zou nuttig zijn om te karakteriseren waar de gebruiker op elk moment in het beeldmateriaal op focust, maar de beschikbare tools om dit te voorspellen zijn nog beperkt.
In een nieuwe studie gerapporteerd op de 15e Europese conferentie over computervisie (ECCV 2018), onderzoekers van de Universiteit van Tokio hebben een rekentool ontwikkeld die kan leren van beelden die zijn gemaakt met een hoofdcamera, in dit geval van verschillende taken in de keuken, en vervolgens nauwkeurig voorspellen waar de focus van de gebruiker de volgende keer op zal worden gericht. Deze nieuwe tool kan nuttig zijn om video-gekoppelde technologieën in staat te stellen te voorspellen welke acties de gebruiker momenteel uitvoert, en passende begeleiding te bieden met betrekking tot de volgende stap.
Bestaande programma's om te voorspellen waar de menselijke blik waarschijnlijk binnen een frame van videobeelden valt, zijn over het algemeen gebaseerd op het concept van "visual saliency, " die onderscheid maakt tussen kenmerken zoals kleur, intensiteit, en contrast binnen het beeld om te voorspellen waar een persoon waarschijnlijk zal kijken. Echter, in beelden van mensen die complexe taken uitvoeren, deze visuele salency-aanpak is ontoereikend, aangezien het individu waarschijnlijk zijn aandacht van het ene object naar het andere verschuift in een sequentiële, en vaak voorspelbaar, manier.
Om van deze voorspelbaarheid te profiteren, in deze studie gebruikte het team een nieuwe benadering die visuele saliency combineert met "blikvoorspelling, " waarbij een kunstmatige intelligentie dergelijke reeksen acties uit bestaande beelden leert en vervolgens de verkregen kennis toepast om de richting van de blik van de gebruiker in nieuw beeldmateriaal te voorspellen.
"Onze nieuwe aanpak omvat de constructie van eerst een 'saliency-kaart' voor elk beeldmateriaal, vervolgens een 'aandachtskaart' op basis van waar de gebruiker eerder naar keek en op beweging van het hoofd van de gebruiker, en tot slot de combinatie van beide in een 'blikkaart, '" zegt Yoichi Sato. "Onze resultaten toonden aan dat deze nieuwe tool beter presteerde dan eerdere alternatieven wat betreft het voorspellen waar de blik van de hoofdcamera-gebruiker daadwerkelijk was gericht."
Hoewel de resultaten van het team werden verkregen voor beelden van klusjes in een keuken, zoals kokend water op een fornuis, ze kunnen worden uitgebreid tot situaties zoals taken die worden uitgevoerd in kantoren of fabrieken. In feite, volgens hoofdauteur Yifei Huang, "Tools voor het evalueren van dit soort egocentrische video's zouden zelfs in een medische context kunnen worden toegepast, zoals beoordelen waar een chirurg zich op richt en begeleiding bieden bij de meest geschikte stappen die vervolgens bij een operatie moeten worden genomen."
Het artikel "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition" is gepubliceerd in de werkzaamheden van de European Conference on Computer Vision (ECCV 2018) en als een arXiv-paper op arxiv.org/abs/1803.09125.
Wetenschap © https://nl.scienceaq.com