science >> Wetenschap >  >> Elektronica

IBM Research geeft Diversity in Faces-dataset vrij om onderzoek naar eerlijkheid in gezichtsherkenningssystemen te bevorderen

Krediet:IBM

Ben je ooit oneerlijk behandeld? Hoe voelde je je erdoor? Waarschijnlijk niet al te best. De meeste mensen zijn het er over het algemeen over eens dat een eerlijkere wereld een betere wereld is, en onze AI-onderzoekers waren het daar helemaal mee eens. Daarom gebruiken we de kracht van de wetenschap om AI-systemen te creëren die eerlijker en nauwkeuriger zijn.

Veel van onze recente vorderingen op het gebied van AI hebben computers opmerkelijke mogelijkheden opgeleverd om steeds geavanceerdere en belangrijkere taken uit te voeren. zoals het vertalen van spraak in verschillende talen om communicatie tussen culturen te overbruggen, het verbeteren van complexe interacties tussen mensen en machines, en automatisch herkennen van de inhoud van video om te helpen bij veiligheidstoepassingen.

Een groot deel van de kracht van AI komt tegenwoordig van het gebruik van datagedreven deep learning om steeds nauwkeurigere modellen te trainen met behulp van steeds grotere hoeveelheden data. Echter, de kracht van deze technieken kan ook een zwakte zijn. De AI-systemen leren wat ze geleerd hebben, en als ze niet worden onderwezen met robuuste en diverse datasets, nauwkeurigheid en eerlijkheid in gevaar kunnen komen. Om die reden, IBM, samen met AI-ontwikkelaars en de onderzoeksgemeenschap, moeten nadenken over welke gegevens we gebruiken voor training. IBM blijft zich inzetten voor het ontwikkelen van AI-systemen om de wereld eerlijker te maken.

De uitdaging bij het trainen van AI komt op een zeer duidelijke en diepgaande manier tot uiting met gezichtsherkenningstechnologie. Vandaag, er kunnen problemen zijn bij het maken van gezichtsherkenningssystemen die voldoen aan de verwachtingen van eerlijkheid. De kern van het probleem ligt niet bij de AI-technologie zelf, per se, maar met hoe de AI-aangedreven gezichtsherkenningssystemen worden getraind. Om ervoor te zorgen dat de gezichtsherkenningssystemen naar wens werken en de resultaten steeds nauwkeuriger worden, moeten trainingsgegevens divers zijn en een breed scala aan dekking bieden. Bijvoorbeeld, de trainingsdatasets moeten groot genoeg en verschillend genoeg zijn zodat de technologie alle manieren leert waarop gezichten verschillen om die verschillen in verschillende situaties nauwkeurig te herkennen. De afbeeldingen moeten de verdeling van kenmerken weergeven in gezichten die we in de wereld zien.

Krediet:IBM

Hoe meten en waarborgen we diversiteit voor menselijke gezichten? Aan de ene kant, we weten hoe gezichten verschillen naar leeftijd, geslacht, en huidskleur, en hoe verschillende gezichten kunnen variëren in sommige van deze dimensies. Een groot deel van de focus op gezichtsherkenningstechnologie lag op hoe goed het presteert binnen deze kenmerken. Maar, zoals eerdere studies hebben aangetoond, deze attributen zijn slechts een stukje van de puzzel en niet helemaal geschikt om de volledige diversiteit van menselijke gezichten te karakteriseren. Afmetingen zoals gezichtssymmetrie, gezichtscontrast, de pose waarin het gezicht zich bevindt, de lengte of breedte van de kenmerken van het gezicht (ogen, neus, voorhoofd, enz.) zijn ook belangrijk.

Vandaag, IBM Research brengt een nieuwe grote en diverse dataset uit genaamd Diversity in Faces (DiF) om de studie van eerlijkheid en nauwkeurigheid in gezichtsherkenningstechnologie te bevorderen. De eerste in zijn soort die beschikbaar is voor de wereldwijde onderzoeksgemeenschap, DiF biedt een dataset met annotaties van 1 miljoen menselijke gezichtsafbeeldingen. Met behulp van openbaar beschikbare afbeeldingen uit de YFCC-100M Creative Commons-dataset, we hebben de gezichten geannoteerd met behulp van 10 gevestigde en onafhankelijke coderingsschema's uit de wetenschappelijke literatuur. [1-10] De coderingsschema's omvatten voornamelijk objectieve metingen van menselijke gezichten, zoals craniofaciale kenmerken, evenals meer subjectieve annotaties, zoals door mensen gelabelde voorspellingen van leeftijd en geslacht. Wij geloven dat door het extraheren en vrijgeven van deze annotaties van gezichtscoderingsschema's op een grote dataset van 1 miljoen afbeeldingen van gezichten, we zullen de studie van diversiteit en dekking van gegevens voor AI-gezichtsherkenningssystemen versnellen om te zorgen voor eerlijkere en nauwkeurigere AI-systemen. De release van vandaag is gewoon de eerste stap.

We zijn van mening dat de DiF-dataset en de 10 coderingsschema's een startpunt bieden voor onderzoekers over de hele wereld die de gezichtsherkenningstechnologie bestuderen. De 10 gezichtscoderingsmethoden omvatten craniofaciale (bijv. hoofd lengte, neus lengte, voorhoofdshoogte), gezichtsverhoudingen (symmetrie), visuele kenmerken (leeftijd, geslacht), en pose en resolutie, onder andere. Deze schema's behoren tot de sterkste die door de wetenschappelijke literatuur zijn geïdentificeerd, bouwen aan een solide basis voor onze collectieve kennis.

Onze eerste analyse heeft aangetoond dat de DiF-dataset een meer evenwichtige verdeling en bredere dekking van gezichtsbeelden biedt in vergelijking met eerdere datasets. Verder, de inzichten verkregen uit de statistische analyse van de 10 initiële coderingsschema's op de DiF-dataset hebben ons eigen begrip vergroot van wat belangrijk is voor het karakteriseren van menselijke gezichten en stelden ons in staat om belangrijk onderzoek voort te zetten naar manieren om gezichtsherkenningstechnologie te verbeteren.

De dataset is vandaag op verzoek beschikbaar voor de wereldwijde onderzoeksgemeenschap. IBM is er trots op dit beschikbaar te stellen en ons doel is om ons collectieve onderzoek verder te helpen en bij te dragen aan het creëren van AI-systemen die eerlijker zijn.

Hoewel IBM Research zich inzet voor voortdurende studie en onderzoek naar eerlijkere gezichtsherkenningssystemen, we geloven niet dat we het alleen kunnen. Met de release van vandaag, we dringen er bij anderen op aan om bij te dragen aan het groeiende aantal onderzoeken en deze belangrijke wetenschappelijke agenda te bevorderen.

Om toegang tot de DiF-dataset aan te vragen, bezoek onze webpagina. Voor meer informatie over DiF, lees onze krant, "Diversiteit in gezichten."

Dit verhaal is opnieuw gepubliceerd met dank aan IBM Research. Lees hier het originele verhaal.