science >> Wetenschap >  >> Elektronica

Emotieherkenning op basis van paralinguïstische informatie

Voorbeeldspectrogrammen van elk van de 4 opgenomen klassen. Krediet:Papakostas et al.

Onderzoekers van de Universiteit van Texas in Arlington hebben onlangs het gebruik van machine learning voor emotieherkenning onderzocht, uitsluitend gebaseerd op paralinguïstische informatie. Paralinguïstiek zijn aspecten van gesproken communicatie zonder woorden, zoals toonhoogte, volume, intonatie, enzovoort.

Recente ontwikkelingen op het gebied van machinaal leren hebben geleid tot de ontwikkeling van hulpmiddelen die emotionele toestanden kunnen herkennen door afbeeldingen te analyseren, spraakopnames, elektro-encefalogrammen of elektrocardiogrammen. Deze tools kunnen verschillende interessante toepassingen hebben, bijvoorbeeld, waardoor efficiëntere mens-computer-interacties mogelijk worden waarbij een computer de emoties van een menselijke gebruiker herkent en erop reageert.

"In het algemeen, men zou kunnen stellen dat spraak twee verschillende soorten informatie bevat:expliciete of linguïstische informatie, het gaat om gearticuleerde patronen door de spreker; en impliciete of paralinguïstische informatie, die betrekking heeft op de variatie in uitspraak van de taalpatronen, " schreven de onderzoekers in hun paper, gepubliceerd in de Vooruitgang in experimentele geneeskunde en biologie boekenreeks. "Met behulp van een of beide soorten informatie, men kan proberen een audiosegment te classificeren dat uit spraak bestaat, gebaseerd op de emotie(s) die het met zich meebrengt. Echter, emotieherkenning uit spraak blijkt zelfs voor een mens een behoorlijk moeilijke taak te zijn, het maakt niet uit of hij/zij een expert is op dit gebied (bijvoorbeeld een psycholoog)."

Veel bestaande benaderingen van automatische spraakherkenning (ASR) proberen emoties uit spraak te herkennen door zowel linguïstische als paralinguïstische informatie te analyseren. Door deels te focussen op linguïstische eigenschappen, deze modellen hebben verschillende nadelen, zoals een strikte taalafhankelijkheid. De onderzoekers besloten daarom om zich te concentreren op emotieherkenning alleen op basis van de analyse van paralinguïstische informatie, in de hoop meertalige emotieherkenning te krijgen.

"In deze krant, we streven ernaar de emoties van sprekers te analyseren op basis van paralinguïstische informatie, " schreven de onderzoekers in hun paper. "We vergelijken twee benaderingen voor machinaal leren, namelijk een convolutioneel neuraal netwerk (CNN) en een ondersteunende vectormachine (SVM)."

De onderzoekers trainden een CNN-model op ruwe spectrogrammen en een SVM-model op een reeks low-level features. Beide modellen zijn getraind en geëvalueerd met behulp van drie algemeen bekende emotionele spraakdatasets:EMOVO, BEWAAR, en EMO-DB. Deze datasets bevatten opnames van emotionele spraak in verschillende talen:Italiaans, Engels en Duits respectievelijk.

De twee machine learning-modellen zijn getraind om vier veelvoorkomende emotieklassen te herkennen:geluk, droefheid, boos en neutraal. De onderzoekers voerden drie experimenten uit voor elke machine learning-aanpak, waarbij een enkele dataset werd gebruikt voor testen en de overige twee voor training.

"Een grote moeilijkheid als gevolg van de keuze van datasets is het grote verschil tussen talen, aangezien naast de taalkundige verschillen, er is ook een grote variabiliteit in de manier waarop elke emotie wordt uitgedrukt, ’ schreven de onderzoekers in hun paper.

Algemeen, ze ontdekten dat de SVM veel beter presteerde dan de CNN, de beste resultaten behalen wanneer getraind op de SAVEE- en EMOVO-datasets, maar getest op EMO-DB. Deze resultaten waren veelbelovend maar niet optimaal, wat suggereert dat we nog een lange weg verwijderd zijn van het bereiken van consistent effectieve meertalige emotieherkenning.

"Onze plannen voor toekomstig werk omvatten het gebruik van meer datasets voor training en evaluatie, " schreven de onderzoekers in hun paper. "We willen ook andere vooraf getrainde deep learning-netwerken onderzoeken, omdat we denken dat deep learning een belangrijke bijdrage kan leveren aan het probleem. Eindelijk, een van onze plannen is om dergelijke benaderingen toe te passen op problemen uit het echte leven, bijv. emotieherkenning binnen trainingen en/of educatieve programma's."

© 2018 Wetenschap X Netwerk