Wetenschap
Onderzoekers van het MIT Media Lab hebben een machine learning-model ontwikkeld dat computers een stap dichter bij het interpreteren van onze emoties brengt, net zo natuurlijk als mensen. Het model legt subtiele variaties in gezichtsuitdrukkingen beter vast om stemmingen beter te meten. Door gebruik te maken van extra trainingsgegevens, het model kan ook worden aangepast aan een geheel nieuwe groep mensen, met dezelfde werkzaamheid. Krediet:Massachusetts Institute of Technology
Onderzoekers van het MIT Media Lab hebben een machine learning-model ontwikkeld dat computers een stap dichter bij het interpreteren van onze emoties brengt, net zo natuurlijk als mensen.
In het groeiende veld van "affective computing, "robots en computers worden ontwikkeld om gezichtsuitdrukkingen te analyseren, onze emoties interpreteren, en dienovereenkomstig reageren. Toepassingen omvatten, bijvoorbeeld, het bewaken van de gezondheid en het welzijn van een persoon, peilen van de interesse van leerlingen in klaslokalen, helpen bij het diagnosticeren van tekenen van bepaalde ziekten, en het ontwikkelen van behulpzame robotgenoten.
Een uitdaging, echter, is dat mensen emoties heel anders uiten, afhankelijk van vele factoren. Er zijn algemene verschillen te zien tussen culturen, geslachten, en leeftijdsgroepen. Maar andere verschillen zijn nog fijnmaziger:het tijdstip van de dag, hoeveel heb je geslapen, of zelfs uw niveau van bekendheid met een gesprekspartner leidt tot subtiele variaties in de manier waarop u zich uit, zeggen, geluk of verdriet op een bepaald moment.
Menselijke hersenen vangen deze afwijkingen instinctief op, maar machines worstelen. De afgelopen jaren zijn diepgaande leertechnieken ontwikkeld om de subtiliteiten, maar ze zijn nog steeds niet zo nauwkeurig of aanpasbaar in verschillende populaties als ze zouden kunnen zijn.
De onderzoekers van Media Lab hebben een machine learning-model ontwikkeld dat traditionele systemen overtreft bij het vastleggen van deze kleine variaties in gezichtsuitdrukkingen, om de stemming beter te meten tijdens het trainen op duizenden afbeeldingen van gezichten. Bovendien, door wat extra trainingsgegevens te gebruiken, het model kan worden aangepast aan een geheel nieuwe groep mensen, met dezelfde werkzaamheid. Het doel is om bestaande affectieve computertechnologieën te verbeteren.
"Dit is een onopvallende manier om onze stemmingen in de gaten te houden, " zegt Oggi Rudovic, een Media Lab-onderzoeker en co-auteur van een paper waarin het model wordt beschreven, die vorige week werd gepresenteerd op de Conference on Machine Learning and Data Mining. "Als je robots met sociale intelligentie wilt, je moet ze intelligent en natuurlijk laten reageren op onze stemmingen en emoties, meer als mensen."
Co-auteurs op het papier zijn:eerste auteur Michael Feffer, een niet-gegradueerde student elektrotechniek en informatica; en Rosalind Picard, een professor in mediakunsten en -wetenschappen en stichtend directeur van de onderzoeksgroep Affective Computing.
Gepersonaliseerde experts
Traditionele affectieve rekenmodellen gebruiken een "one-size-fits-all"-concept. Ze trainen op één set afbeeldingen met verschillende gezichtsuitdrukkingen, het optimaliseren van functies, zoals hoe een lip krult bij het glimlachen, en het in kaart brengen van die algemene functie-optimalisaties voor een hele reeks nieuwe afbeeldingen.
De onderzoekers, in plaats daarvan, een techniek gecombineerd, genaamd "mix van experts" (MoE), met modelpersonalisatietechnieken, wat hielp bij het mijnen van meer fijnkorrelige gezichtsuitdrukkingsgegevens van individuen. Dit is de eerste keer dat deze twee technieken zijn gecombineerd voor affective computing, zegt Rudovic.
In MoE's, een aantal neurale netwerkmodellen, genaamd "deskundigen, " zijn elk getraind om zich te specialiseren in een afzonderlijke verwerkingstaak en één output te produceren. De onderzoekers hebben ook een "gating-netwerk, " die de waarschijnlijkheid berekent van welke expert de stemmingen van ongeziene onderwerpen het beste zal detecteren. "In principe kan het netwerk onderscheid maken tussen individuen en zeggen, 'Dit is de juiste expert voor het gegeven beeld, ', zegt Feffer.
Voor hun model de onderzoekers personaliseerden de MoE's door elke expert te matchen met een van de 18 individuele video-opnames in de RECOLA-database, een openbare database van mensen die praten op een videochatplatform dat is ontworpen voor affectieve computertoepassingen. Ze trainden het model met behulp van negen proefpersonen en evalueerden ze op de andere negen, met alle video's opgesplitst in afzonderlijke frames.
Elke deskundige, en het poortnetwerk, bijgehouden gezichtsuitdrukkingen van elk individu, met behulp van een restnetwerk ("ResNet"), een neuraal netwerk dat wordt gebruikt voor objectclassificatie. Daarbij, het model scoorde elk frame op basis van valentie (aangenaam of onaangenaam) en opwinding (opwinding) - veelgebruikte statistieken om verschillende emotionele toestanden te coderen. Afzonderlijk, zes menselijke experts bestempelden elk frame voor valentie en opwinding, gebaseerd op een schaal van -1 (laag niveau) tot 1 (hoog niveau), waarmee het model ook trainde.
De onderzoekers voerden vervolgens verdere modelpersonalisatie uit, waar ze de getrainde modelgegevens van sommige frames van de resterende video's van onderwerpen voedden, en testte het model vervolgens op alle onzichtbare frames van die video's. Resultaten toonden aan dat, met slechts 5 tot 10 procent van de gegevens van de nieuwe populatie, het model presteerde ruimschoots beter dan traditionele modellen - wat betekent dat het valentie en opwinding scoorde op ongeziene beelden die veel dichter bij de interpretaties van menselijke experts liggen.
Dit toont het potentieel van de modellen om zich aan te passen van populatie tot populatie, of van persoon tot persoon, met zeer weinig gegevens, zegt Rudovic. "Dat is de sleutel, "zegt hij. "Als je een nieuwe populatie hebt, je moet een manier hebben om rekening te houden met verschuiving van gegevensdistributie [subtiele gezichtsvariaties]. Stel je een modellenset voor om gezichtsuitdrukkingen in de ene cultuur te analyseren die moet worden aangepast voor een andere cultuur. Zonder rekening te houden met deze gegevensverschuiving, die modellen zullen ondermaats presteren. Maar als je een beetje proeft van een nieuwe cultuur om ons model aan te passen, deze modellen kunnen veel beter, vooral op individueel niveau. Hier komt het belang van de modelpersonalisatie het beste tot uiting."
De momenteel beschikbare gegevens voor dergelijk affectief computeronderzoek zijn niet erg divers in huidskleuren, dus de trainingsgegevens van de onderzoekers waren beperkt. Maar wanneer dergelijke gegevens beschikbaar komen, het model kan worden getraind voor gebruik op meer diverse populaties. De volgende stap, Feffer zegt, is om het model te trainen op "een veel grotere dataset met meer diverse culturen."
Betere machine-mens interacties
Een ander doel is om het model te trainen om computers en robots te helpen automatisch te leren van kleine hoeveelheden veranderende gegevens om op een natuurlijkere manier te detecteren hoe we ons voelen en beter te kunnen voorzien in menselijke behoeften. zeggen de onderzoekers.
Het zou kunnen, bijvoorbeeld, uitvoeren op de achtergrond van een computer of mobiel apparaat om de videogesprekken van een gebruiker te volgen en subtiele veranderingen in gezichtsuitdrukkingen in verschillende contexten te leren. "Je kunt dingen als smartphone-apps of websites laten zien hoe mensen zich voelen en manieren aanbevelen om met stress of pijn om te gaan, en andere dingen die hun leven negatief beïnvloeden, ' zegt Feffer.
Dit kan ook nuttig zijn bij het monitoren, zeggen, depressie of dementie, omdat de gezichtsuitdrukkingen van mensen de neiging hebben om subtiel te veranderen als gevolg van die omstandigheden. "In staat zijn om onze gezichtsuitdrukkingen passief te volgen, "Rudovic zegt, "Na verloop van tijd zouden we deze modellen voor gebruikers kunnen personaliseren en kunnen controleren hoeveel afwijkingen ze dagelijks hebben - afwijkend van het gemiddelde niveau van gezichtsexpressie - en deze gebruiken voor indicatoren van welzijn en gezondheid."
Een veelbelovende toepassing, Rudovic zegt, is mens-robot interacties, zoals voor persoonlijke robotica of robots die worden gebruikt voor educatieve doeleinden, waar de robots zich moeten aanpassen om de emotionele toestanden van veel verschillende mensen te beoordelen. een versie, bijvoorbeeld, is gebruikt om robots te helpen de stemmingen van kinderen met autisme beter te interpreteren.
Roddy Cowie, emeritus hoogleraar psychologie aan de Queen's University Belfast en een geleerde op het gebied van affective computing, zegt dat het MIT-werk "illustreert waar we werkelijk zijn" in het veld. "We zijn op weg naar systemen die grofweg kunnen plaatsen, van foto's van gezichten van mensen, waar ze liggen op schalen van zeer positief tot zeer negatief, en zeer actief tot zeer passief, "zegt hij. "Het lijkt intuïtief dat de emotionele tekens die een persoon geeft niet hetzelfde zijn als de tekens die een ander geeft, en dus is het logisch dat emotieherkenning beter werkt als het gepersonaliseerd is. De methode van personaliseren weerspiegelt een ander intrigerend punt, dat het effectiever is om meerdere 'experts, ' en hun oordelen aggregeren, dan een enkele superexpert op te leiden. De twee vormen samen een bevredigend pakket."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com