science >> Wetenschap >  >> Elektronica

Een diepgaande leertechniek voor contextbewuste emotieherkenning

Intuïtie van CAER-Net voor ongeknipte video's, zoals in (a) conventionele methoden die alleen gebruikmaken van de gezichtsgebieden, zoals in (b), herkennen vaak emoties niet. In tegenstelling tot deze methoden, CAER-Net richt zich op zowel gezichts- als aandachtige contextregio's, zoals te zien in (c). Krediet:Lee et al.

Een team van onderzoekers van Yonsei University en École Polytechnique Fédérale de Lausanne (EPFL) heeft onlangs een nieuwe techniek ontwikkeld die emoties kan herkennen door de gezichten van mensen in afbeeldingen te analyseren, samen met contextuele kenmerken. Ze presenteerden en schetsten hun op deep learning gebaseerde architectuur, genaamd CAER-Net, in een paper dat vooraf is gepubliceerd op arXiv.

Voor meerdere jaren, onderzoekers over de hele wereld hebben geprobeerd hulpmiddelen te ontwikkelen voor het automatisch detecteren van menselijke emoties door beelden te analyseren, video's of audioclips. Deze tools kunnen tal van toepassingen hebben, bijvoorbeeld, het verbeteren van robot-mens interacties of het helpen van artsen om tekenen van mentale of neurale stoornissen te identificeren (bijv. , gebaseerd op atypische spraakpatronen, gezichtskenmerken, enzovoort.).

Tot dusver, de meeste technieken voor het herkennen van emoties in afbeeldingen zijn gebaseerd op de analyse van gezichtsuitdrukkingen van mensen, in wezen aannemend dat deze uitdrukkingen de emotionele reacties van mensen het beste overbrengen. Als resultaat, de meeste datasets voor het trainen en evalueren van tools voor emotieherkenning (bijv. de datasets AFEW en FER2013) bevatten alleen bijgesneden afbeeldingen van menselijke gezichten.

Een belangrijke beperking van conventionele instrumenten voor emotieherkenning is dat ze geen bevredigende prestatie leveren wanneer emotionele signalen op de gezichten van mensen dubbelzinnig of niet te onderscheiden zijn. In tegenstelling tot deze benaderingen, mensen zijn in staat om de emoties van anderen te herkennen, niet alleen op basis van hun gezichtsuitdrukkingen, maar ook op contextuele aanwijzingen (bijv. de acties die ze uitvoeren, hun omgang met anderen, waar zij zijn, enzovoort.).

Eerdere studies suggereren dat het analyseren van zowel gezichtsuitdrukkingen als contextgerelateerde kenmerken de prestaties van emotieherkenningstools aanzienlijk kan verbeteren. Geïnspireerd door deze bevindingen, de onderzoekers van Yonsei en EPFL wilden een op deep learning gebaseerde architectuur ontwikkelen die de emoties van mensen in afbeeldingen kan herkennen op basis van zowel hun gezichtsuitdrukkingen als contextuele informatie.

Voorbeelden van attentiegewichten in de door de onderzoekers ontwikkelde neurale netwerken. Krediet:Lee et al.

"We presenteren diepe netwerken voor contextbewuste emotieherkenning, genaamd CAER-Net, die niet alleen de menselijke gezichtsuitdrukking uitbuiten, maar ook contextinformatie, op een gezamenlijke en stimulerende manier, " schreven de onderzoekers in hun paper. "Het belangrijkste idee is om menselijke gezichten in een visuele scène te verbergen en andere contexten te zoeken op basis van een aandachtsmechanisme."

CAER-Net, de architectuur ontwikkeld door onderzoekers, is samengesteld uit twee belangrijke subnetwerken en encoders die afzonderlijk gezichtskenmerken en contextuele regio's in een afbeelding extraheren. Deze twee soorten functies worden vervolgens gecombineerd met behulp van adaptieve fusienetwerken en samen geanalyseerd om de emoties van mensen in een bepaald beeld te voorspellen.

Naast CAER-Net, de onderzoekers introduceerden ook een nieuwe dataset voor contextbewuste emotieherkenning, die ze CAER noemen. Afbeeldingen in deze dataset geven zowel de gezichten van mensen als hun omgeving/context weer, daarom zou het kunnen dienen als een effectievere benchmark voor het evalueren van technieken voor emotieherkenning.

De onderzoekers evalueerden hun techniek voor emotieherkenning in een reeks experimenten, met behulp van zowel de dataset die ze hebben samengesteld als de AFEW-dataset. Hun bevindingen suggereren dat het analyseren van zowel gezichtsuitdrukkingen als contextuele informatie de prestaties van emotieherkenningstools aanzienlijk kan verbeteren, zoals blijkt uit eerdere onderzoeken.

"We hopen dat de resultaten van deze studie verdere vooruitgang zullen vergemakkelijken in contextbewuste emotieherkenning en de bijbehorende taken, ’ schreven de onderzoekers.

© 2019 Wetenschap X Netwerk