science >> Wetenschap >  >> Elektronica

Studie evalueert effecten van ras, leeftijd, seks op gezichtsherkenningssoftware

Een nieuwe NIST-studie onderzoekt hoe nauwkeurig softwaretools voor gezichtsherkenning mensen van verschillende geslachten identificeren, leeftijd en raciale achtergrond. Krediet:N. Hanacek/NIST

Hoe nauwkeurig identificeren softwaretools voor gezichtsherkenning mensen van verschillende geslachten, leeftijd en raciale achtergrond? Volgens een nieuwe studie van het National Institute of Standards and Technology (NIST), het antwoord hangt af van het algoritme in het hart van het systeem, de toepassing die het gebruikt en de gegevens die het krijgt, maar de meeste algoritmen voor gezichtsherkenning vertonen demografische verschillen. Een differentieel betekent dat het vermogen van een algoritme om twee afbeeldingen van dezelfde persoon te matchen, verschilt van de ene demografische groep tot de andere.

Resultaten vastgelegd in het rapport, Face Recognition Vendor Test (FRVT) Deel 3:Demografische effecten (NISTIR 8280), zijn bedoeld om beleidsmakers te informeren en om softwareontwikkelaars te helpen de prestaties van hun algoritmen beter te begrijpen. Gezichtsherkenningstechnologie heeft het publieke debat geïnspireerd, deels vanwege de noodzaak om het effect van demografie op gezichtsherkenningsalgoritmen te begrijpen.

"Hoewel het meestal onjuist is om uitspraken te doen over algoritmen heen, we vonden empirisch bewijs voor het bestaan ​​van demografische verschillen in de meerderheid van de gezichtsherkenningsalgoritmen die we bestudeerden, " zei Patrick Grosser, een NIST-computerwetenschapper en de primaire auteur van het rapport. "Hoewel we niet onderzoeken wat deze verschillen zou kunnen veroorzaken, deze gegevens zullen waardevol zijn voor beleidsmakers, ontwikkelaars en eindgebruikers bij het nadenken over de beperkingen en het juiste gebruik van deze algoritmen."

De studie werd uitgevoerd via het Face Recognition Vendor Test (FRVT)-programma van NIST, die gezichtsherkenningsalgoritmen evalueert die zijn ingediend door de industrie en academische ontwikkelaars op hun vermogen om verschillende taken uit te voeren. Hoewel NIST de definitieve commerciële producten die gebruik maken van deze algoritmen niet test, het programma heeft snelle ontwikkelingen in het ontluikende veld aan het licht gebracht.

De NIST-studie evalueerde 189 software-algoritmen van 99 ontwikkelaars - een meerderheid van de industrie. Het richt zich op hoe goed elk afzonderlijk algoritme een van de twee verschillende taken uitvoert die tot de meest voorkomende toepassingen van gezichtsherkenning behoren. De eerste taak, bevestigen dat een foto overeenkomt met een andere foto van dezelfde persoon in een database, staat bekend als "één-op-één" matching en wordt vaak gebruikt voor verificatiewerkzaamheden, zoals het ontgrendelen van een smartphone of het controleren van een paspoort. De seconde, bepalen of de persoon op de foto een match heeft in een database, staat bekend als "één-op-veel"-matching en kan worden gebruikt voor identificatie van een persoon van belang.

Om de prestaties van elk algoritme op zijn taak te evalueren, het team heeft de twee soorten fouten gemeten die de software kan maken:valse positieven en valse negatieven. Een vals positief betekent dat de software ten onrechte foto's van twee verschillende personen beschouwde om dezelfde persoon te tonen, terwijl een vals negatief betekent dat de software er niet in slaagde om twee foto's te matchen die, in feite, laat dezelfde persoon zien.

Het maken van dit onderscheid is belangrijk omdat de foutklasse en het zoektype enorm verschillende gevolgen kunnen hebben, afhankelijk van de toepassing in de echte wereld.

"In een één-op-één zoektocht, een vals-negatief kan slechts een ongemak zijn - u kunt niet in uw telefoon komen, maar het probleem kan meestal worden verholpen door een tweede poging, "Zei Grother. "Maar een vals positief resultaat in een één-op-veel-zoekopdracht plaatst een onjuiste overeenkomst op een lijst met kandidaten die nader onderzoek rechtvaardigen."

Wat de publicatie onderscheidt van de meeste andere gezichtsherkenningsonderzoeken, is de bezorgdheid over de prestaties van elk algoritme bij het overwegen van demografische factoren. Voor een-op-een matching, slechts enkele eerdere studies onderzoeken demografische effecten; voor een-op-veel-matching, niemand heeft.

Om de algoritmen te evalueren, het NIST-team gebruikte vier fotocollecties met 18,27 miljoen afbeeldingen van 8,49 miljoen mensen. Ze kwamen allemaal uit operationele databases van het ministerie van Buitenlandse Zaken, het Department of Homeland Security en de FBI. Het team heeft geen afbeeldingen gebruikt die rechtstreeks zijn "geschraapt" van internetbronnen zoals sociale media of videobewaking.

De foto's in de databases bevatten metadata-informatie die de leeftijd van het onderwerp aangeeft, seks, en ofwel ras of geboorteland. Het team heeft niet alleen de fout-positieven en fout-negatieven van elk algoritme gemeten voor beide zoektypen, maar het bepaalde ook hoeveel deze foutenpercentages tussen de tags varieerden. Met andere woorden, hoe relatief goed presteerde het algoritme op afbeeldingen van mensen uit verschillende groepen?

Tests toonden een breed scala aan nauwkeurigheid tussen ontwikkelaars, met de meest nauwkeurige algoritmen die veel minder fouten produceren. Hoewel de focus van het onderzoek lag op individuele algoritmen, Grother wees op vijf bredere bevindingen:

  1. Voor een-op-een matching, het team zag hogere percentages valse positieven voor Aziatische en Afro-Amerikaanse gezichten in vergelijking met afbeeldingen van blanken. De verschillen varieerden vaak van een factor 10 tot 100 keer, afhankelijk van het individuele algoritme. Valse positieven kunnen een veiligheidsrisico vormen voor de systeemeigenaar, omdat ze toegang kunnen geven aan bedriegers.
  2. Van de door de VS ontwikkelde algoritmen, er waren vergelijkbare hoge percentages valse positieven bij één-op-één-matching voor Aziaten, Afro-Amerikanen en inheemse groepen (waaronder Native American, Amerikaanse Indiaan, Alaskan Indian en Pacific Islanders). De demografie van de Amerikaanse Indianen had de hoogste percentages valse positieven.
  3. Echter, een opmerkelijke uitzondering was voor sommige algoritmen ontwikkeld in Aziatische landen. Er was niet zo'n dramatisch verschil in valse positieven bij een-op-een-matching tussen Aziatische en blanke gezichten voor algoritmen die in Azië zijn ontwikkeld. Hoewel Grother herhaalde dat de NIST-studie de relatie tussen oorzaak en gevolg niet onderzoekt, een mogelijke verbinding, en onderzoeksgebied, is de relatie tussen de prestaties van een algoritme en de gegevens die worden gebruikt om het te trainen. "Deze resultaten zijn een bemoedigend teken dat meer diverse trainingsgegevens meer billijke resultaten kunnen opleveren, mocht het voor ontwikkelaars mogelijk zijn om dergelijke gegevens te gebruiken, " hij zei.
  4. Voor een-op-veel-matching, het team zag hogere percentages valse positieven voor Afro-Amerikaanse vrouwen. Verschillen in valse positieven bij een-op-veel-overeenkomsten zijn bijzonder belangrijk omdat de gevolgen valse beschuldigingen kunnen omvatten. (In dit geval, de test gebruikte niet de hele set foto's, maar slechts één FBI-database met 1,6 miljoen binnenlandse mugshots.)
  5. Echter, niet alle algoritmen geven dit hoge percentage valse positieven over demografische gegevens in een-op-veel-matching, en degenen die het meest rechtvaardig zijn, behoren ook tot de meest nauwkeurige. Dit laatste punt onderstreept één algemene boodschap van het rapport:verschillende algoritmen presteren verschillend.

Elke bespreking van demografische effecten is onvolledig als er geen onderscheid wordt gemaakt tussen de fundamenteel verschillende taken en soorten gezichtsherkenning, zei Grom. Dergelijke onderscheidingen zijn belangrijk om te onthouden nu de wereld wordt geconfronteerd met de bredere implicaties van het gebruik van gezichtsherkenningstechnologie.