science >> Wetenschap >  >> Elektronica

Onderzoekers leren neurale netwerken om emoties van mensen te bepalen

Krediet:CC0 Publiek Domein

Geleerden van de Higher School Of Economics hebben een algoritme ontwikkeld dat emoties detecteert in een groep mensen op een video van lage kwaliteit. De oplossing zorgt voor een definitieve beslissing in slechts een honderdste van een seconde, wat sneller is dan alle andere bestaande algoritmen met vergelijkbare nauwkeurigheid. De resultaten zijn beschreven in het artikel 'Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings'.

Het analyseren van het sociale gedrag van mensen met behulp van afbeeldingen en video's is een van de meest populaire taken voor ontwikkelaars van slimme mens-machine-interfaces. Onderzoekers hebben een vrij hoge kwaliteit bereikt in het herkennen van emoties op groepsniveau, maar het bleef onmogelijk om deze ontwikkeling op grote schaal door te voeren. Het probleem was de eis van de meeste videosystemen voor beelden met close-ups van gezichten in een goede resolutie. Maar gewone camera's die op straat of in een supermarkt zijn geïnstalleerd, hebben een lage resolutie en zijn vrij hoog gemonteerd, zodat de typische gezichtsgebieden in de verzamelde video's erg klein zijn.

Alexander Tarasov en Andrey Savchenko, onderzoekers van HSE, hebben een algoritme ontwikkeld dat vergelijkbaar is met de bestaande emotieherkenningstechnieken op groepsniveau wat betreft herkenningsnauwkeurigheid (75,5%). Tegelijkertijd, het vereist slechts 5 MB in het systeemgeheugen, verwerkt één afbeelding of videoframe in slechts een honderdste van een seconde en kan worden gebruikt met videogegevens van lage kwaliteit.

Het algoritme werkt in verschillende fasen. Eerst, het beeld wordt verwerkt met MTCNN neuraal netwerk, die traditioneel wordt gebruikt voor de detectie van kleine gezichten. Vervolgens, de functies worden uit elk gezicht gehaald met een volledig convolutienetwerk, die aanvankelijk was getraind om emoties van gezichten te classificeren met een zeer lage resolutie, niet groter dan een profielfoto op social media. De uiteindelijke beslissing over de emotie (negatief, positief of neutraal) van de hele groep wordt gemaakt door een ensemble van bekende classificaties (random forest en ondersteunende vectormachines) die worden toegepast op de gewogen som van kenmerkvectoren van alle gedetecteerde gezichten.

De nieuwe ontwikkeling kan mogelijk worden gebruikt in verschillende videobewakingssystemen. Het kan helpen bij het detecteren van veranderingen in groepsemoties tijdens een concert, voetbalwedstrijd, of een protestbijeenkomst, die kunnen helpen bij het tijdig voorkomen van conflicten. Geïntegreerd in een supermarktbewakingssysteem, het zal de emotionele reactie van consumenten op verschillende promoties detecteren. Samen met camera's die een openbare toespraak opnemen, het kan de reactie van het publiek beoordelen.