science >> Wetenschap >  >> Elektronica

Een multi-granulariteit redeneringskader voor herkenning van sociale relaties

Hoe herkennen we aan een afbeelding dat twee personen familie of vreemden zijn? de scènes, uiterlijk van personen, en interacties tussen personen en contextuele objecten zijn belangrijke aanwijzingen voor herkenning. Krediet:Zhang et al.

Een team van onderzoekers van de Universiteit van Peking en JD AI Research hebben onlangs een multi-granulariteit redeneringsraamwerk ontwikkeld voor het herkennen van sociale relaties. Hun kader, beschreven in een paper dat vooraf is gepubliceerd op arXiv, werd getraind om afbeeldingen van mensen in verschillende scènes te analyseren en de sociale relatie tussen hen te voorspellen.

Het effectief afleiden van de sociale relaties tussen mensen zou intelligente agenten kunnen helpen om een ​​beter begrip te krijgen van menselijk gedrag en emoties. Op afbeeldingen gebaseerde herkenning van sociale relaties omvat het vermogen om de relatie tussen paren mensen in een afbeelding te classificeren in vooraf gedefinieerde relatietypen, zoals vrienden, familie, bekenden, onbekenden, enzovoort.

Op afbeeldingen gebaseerde hulpmiddelen voor het herkennen van sociale relaties kunnen een verscheidenheid aan nuttige toepassingen hebben, bijvoorbeeld, in het verzamelen van persoonlijke afbeeldingen en het begrijpen van sociale gebeurtenissen. Recente ontwikkelingen op het gebied van diep leren hebben nieuwe mogelijkheden geopend voor het herkennen van sociale relaties, wat leidt tot aanzienlijke prestatieverbeteringen.

Niettemin, het automatisch herkennen van sociale relaties in beelden is tot nu toe een uitdaging gebleken, vooral vanwege de aanzienlijke kloof tussen de domeinen van visuele inhoud en sociale relaties. De meeste bestaande benaderingen werken door kenmerken zoals gezichtsuitdrukkingen, lichaamsuiterlijk en contextuele aanwijzingen.

"Bestaande methoden voor het herkennen van sociale relaties maken meestal gebruik van visuele kenmerken op een laag niveau, zoals het uiterlijk van personen, gezichtskenmerken en contextuele objecten, " schreven de onderzoekers in hun paper. "Hoewel sommige benaderingen de relaties tussen personen en objecten onderzoeken, ze houden alleen rekening met het naast elkaar bestaan ​​in een beeld. Echter, alleen afhankelijk van de enkele granulariteitsrepresentatie kan de domeinkloof tussen visuele kenmerken en sociale relaties nauwelijks worden overbrugd."

Een overzicht van het multi-granulariteit redeneringskader. Krediet:Zhang et al.

Door functies afzonderlijk te analyseren, bestaande methoden voor het herkennen van sociale relaties slagen er doorgaans niet in om multi-granulariteitssemantiek vast te leggen, zoals algemene scènes of waar mensen zich in een afbeelding bevinden, evenals interacties tussen mensen en objecten. Om deze beperkingen aan te pakken, het team van onderzoekers van de Universiteit van Peking en JD AI Research bedacht een multi-granulariteit redeneringskader voor herkenning van sociale relaties in afbeeldingen.

Hun raamwerk verwerft wereldwijde kennis van de hele scène en details op het middenniveau van de regio's waarin mensen en objecten zich in een afbeelding bevinden. Het onderzoekt ook de fijne granulariteit van de belangrijkste punten van mensen om interacties tussen mensen en objecten te ontdekken.

"Specifiek, de pose-geleide Person-Object Graph en Person-Pose Graph worden voorgesteld om de acties van personen tot object en de interacties tussen gepaarde personen te modelleren, respectievelijk, " verklaarden de onderzoekers in hun paper. "Op basis van deze grafieken, sociale relatie redeneren wordt uitgevoerd door graaf convolutionele netwerken. Eindelijk, de globale kenmerken en beredeneerde kennis zijn geïntegreerd als een alomvattende representatie voor de erkenning van sociale relaties."

De onderzoekers evalueerden hun model op twee grootschalige datasets voor sociale relaties, namelijk de People in Social Context (PISC) en People in Photo Album (PIPA) datasets. De PISC-dataset bevat afbeeldingen van gemeenschappelijke sociale relaties in het dagelijks leven, terwijl de PIPA-dataset afbeeldingen bevat die zijn geannoteerd op basis van de theorie van het sociale domein, die het sociale leven verdeelt in vijf domeinen en 16 verschillende relaties. Bij deze testen hun model behaalde opmerkelijke resultaten, beter presteren dan een verscheidenheid aan state-of-the-art methoden.

Ondanks deze bemoedigende resultaten, het ontwikkelen van instrumenten om sociale relaties te herkennen blijft een grote uitdaging, vooral als het intieme relaties zijn, zoals die tussen vrienden, gezinnen of koppels, die voor menselijke kijkers moeilijk te onderscheiden zijn, te. In de toekomst, de onderzoekers zijn van plan nieuwe manieren te verkennen om contextuele aanwijzingen in afbeeldingen te ontdekken en de uitdagingen te overwinnen die gepaard gaan met een gebrek aan beschikbare gegevens voor sommige soorten sociale relaties.

© 2019 Wetenschap X Netwerk