science >> Wetenschap >  >> Elektronica

Machinedetectie van interactie tussen mens en object in afbeeldingen en video's

Jia Bin Huang, assistent-professor aan de Bradley Department of Electrical and Computer Engineering en een faculteitslid van het Discovery Analytics Center. Krediet:Virginia Tech

Jia Bin Huang, assistent-professor in de Bradley Department of Electrical and Computer Engineering en een faculteitslid bij het Discovery Analytics Center, heeft een Google Faculty Research Award ontvangen ter ondersteuning van zijn werk bij het detecteren van interactie tussen mens en object in afbeeldingen en video's.

De Google-award, die zich in de categorie Machine Perceptie bevindt, zal Huang in staat stellen om de uitdagingen aan te gaan van het detecteren van twee aspecten van interactie tussen mens en object:het modelleren van de relatie tussen een persoon en relevante objecten/scène voor het verzamelen van contextuele informatie en het automatisch ontginnen van harde voorbeelden uit niet-gelabelde maar interactierijke video's.

Volgens Huang, hoewel er aanzienlijke vooruitgang is geboekt bij de classificatie, detecteren, en segmenteren van objecten, het representeren van afbeeldingen/video's als een verzameling van geïsoleerde objectinstanties is er niet in geslaagd de informatie vast te leggen die essentieel is voor het begrijpen van activiteit.

"Door het model te verbeteren en de training op te schalen, we willen een stap verder gaan in de richting van het bouwen van sociaal intelligente machines, ' zei Huang.

Gegeven een afbeelding of een video, het doel is om personen en objectinstanties te lokaliseren, evenals interactie herkennen, indien van toepassing, tussen elk paar van een persoon en een object. Dit biedt een gestructureerde weergave van een visueel gefundeerde grafiek over de mensen en de objectinstanties waarmee ze communiceren.

Bijvoorbeeld:Twee mannen staan ​​naast elkaar aan de zijlijn van een tennisbaan, één staat op en houdt een paraplu vast en één zit op een stoel met een tennisracket en kijkt naar een tas op de grond naast hem. Naarmate de video vordert, de twee glimlachen naar elkaar, wissel de paraplu en het tennisracket, naast elkaar zitten, en drink uit waterflessen. Eventueel, ze draaien zich om en kijken elkaar aan, wissel de paraplu en het tennisracket weer om, en tenslotte, met elkaar praten.

"Het begrijpen van menselijke activiteit in afbeeldingen en/of video's is een fundamentele stap in de richting van het bouwen van sociaal bewuste agenten, semantisch beeld/video ophalen, ondertiteling, en het beantwoorden van vragen, ' zei Huang.

Hij zei dat het detecteren van interactie tussen mens en computer leidt tot een dieper begrip van mensgerichte activiteit.

"In plaats van te antwoorden 'Wat is waar?' het doel van detectie van interactie tussen mens en object is het beantwoorden van de vraag 'Wat gebeurt er?' De resultaten van interactie tussen mens en object geven een fijnmazigere beschrijving van de toestand van de scène en stellen ons in staat om de toekomst beter te voorspellen en hun bedoeling te begrijpen, ' zei Huang.

doctoraat student Chen Gao gaat samen met Huang aan het project werken. Ze verwachten dat het onderzoek de state-of-the-art detectie van mens-objecten aanzienlijk zal verbeteren en veel high-impact toepassingen mogelijk zal maken, zoals gezondheidsmonitoring op lange termijn en sociaal bewuste robots.

Huang is van plan de resultaten van het onderzoek te delen via publicaties op topconferenties en tijdschriften en zal ook de broncode maken, verzamelde datasets, en vooraf getrainde modellen die op basis van dit project zijn geproduceerd, zijn openbaar beschikbaar.

"Ons project sluit goed aan bij verschillende van Google's voortdurende inspanningen om 'sociale visuele intelligentie' op te bouwen. We kijken ernaar uit om samen te werken met onderzoekers en technici bij Google om ideeën uit te wisselen en te delen en toekomstige samenwerkingsrelaties te bevorderen, ' zei Huang.