Wetenschap
Een nieuwe NIST-studie onderzoekt hoe nauwkeurig softwaretools voor gezichtsherkenning mensen van verschillende geslachten identificeren, leeftijd en raciale achtergrond. Krediet:N. Hanacek/NIST
Hoe nauwkeurig identificeren softwaretools voor gezichtsherkenning mensen van verschillende geslachten, leeftijd en raciale achtergrond? Volgens een nieuwe studie van het National Institute of Standards and Technology (NIST), het antwoord hangt af van het algoritme in het hart van het systeem, de toepassing die het gebruikt en de gegevens die het krijgt, maar de meeste algoritmen voor gezichtsherkenning vertonen demografische verschillen. Een differentieel betekent dat het vermogen van een algoritme om twee afbeeldingen van dezelfde persoon te matchen, verschilt van de ene demografische groep tot de andere.
Resultaten vastgelegd in het rapport, Face Recognition Vendor Test (FRVT) Deel 3:Demografische effecten (NISTIR 8280), zijn bedoeld om beleidsmakers te informeren en om softwareontwikkelaars te helpen de prestaties van hun algoritmen beter te begrijpen. Gezichtsherkenningstechnologie heeft het publieke debat geïnspireerd, deels vanwege de noodzaak om het effect van demografie op gezichtsherkenningsalgoritmen te begrijpen.
"Hoewel het meestal onjuist is om uitspraken te doen over algoritmen heen, we vonden empirisch bewijs voor het bestaan van demografische verschillen in de meerderheid van de gezichtsherkenningsalgoritmen die we bestudeerden, " zei Patrick Grosser, een NIST-computerwetenschapper en de primaire auteur van het rapport. "Hoewel we niet onderzoeken wat deze verschillen zou kunnen veroorzaken, deze gegevens zullen waardevol zijn voor beleidsmakers, ontwikkelaars en eindgebruikers bij het nadenken over de beperkingen en het juiste gebruik van deze algoritmen."
De studie werd uitgevoerd via het Face Recognition Vendor Test (FRVT)-programma van NIST, die gezichtsherkenningsalgoritmen evalueert die zijn ingediend door de industrie en academische ontwikkelaars op hun vermogen om verschillende taken uit te voeren. Hoewel NIST de definitieve commerciële producten die gebruik maken van deze algoritmen niet test, het programma heeft snelle ontwikkelingen in het ontluikende veld aan het licht gebracht.
De NIST-studie evalueerde 189 software-algoritmen van 99 ontwikkelaars - een meerderheid van de industrie. Het richt zich op hoe goed elk afzonderlijk algoritme een van de twee verschillende taken uitvoert die tot de meest voorkomende toepassingen van gezichtsherkenning behoren. De eerste taak, bevestigen dat een foto overeenkomt met een andere foto van dezelfde persoon in een database, staat bekend als "één-op-één" matching en wordt vaak gebruikt voor verificatiewerkzaamheden, zoals het ontgrendelen van een smartphone of het controleren van een paspoort. De seconde, bepalen of de persoon op de foto een match heeft in een database, staat bekend als "één-op-veel"-matching en kan worden gebruikt voor identificatie van een persoon van belang.
Om de prestaties van elk algoritme op zijn taak te evalueren, het team heeft de twee soorten fouten gemeten die de software kan maken:valse positieven en valse negatieven. Een vals positief betekent dat de software ten onrechte foto's van twee verschillende personen beschouwde om dezelfde persoon te tonen, terwijl een vals negatief betekent dat de software er niet in slaagde om twee foto's te matchen die, in feite, laat dezelfde persoon zien.
Het maken van dit onderscheid is belangrijk omdat de foutklasse en het zoektype enorm verschillende gevolgen kunnen hebben, afhankelijk van de toepassing in de echte wereld.
"In een één-op-één zoektocht, een vals-negatief kan slechts een ongemak zijn - u kunt niet in uw telefoon komen, maar het probleem kan meestal worden verholpen door een tweede poging, "Zei Grother. "Maar een vals positief resultaat in een één-op-veel-zoekopdracht plaatst een onjuiste overeenkomst op een lijst met kandidaten die nader onderzoek rechtvaardigen."
Wat de publicatie onderscheidt van de meeste andere gezichtsherkenningsonderzoeken, is de bezorgdheid over de prestaties van elk algoritme bij het overwegen van demografische factoren. Voor een-op-een matching, slechts enkele eerdere studies onderzoeken demografische effecten; voor een-op-veel-matching, niemand heeft.
Om de algoritmen te evalueren, het NIST-team gebruikte vier fotocollecties met 18,27 miljoen afbeeldingen van 8,49 miljoen mensen. Ze kwamen allemaal uit operationele databases van het ministerie van Buitenlandse Zaken, het Department of Homeland Security en de FBI. Het team heeft geen afbeeldingen gebruikt die rechtstreeks zijn "geschraapt" van internetbronnen zoals sociale media of videobewaking.
De foto's in de databases bevatten metadata-informatie die de leeftijd van het onderwerp aangeeft, seks, en ofwel ras of geboorteland. Het team heeft niet alleen de fout-positieven en fout-negatieven van elk algoritme gemeten voor beide zoektypen, maar het bepaalde ook hoeveel deze foutenpercentages tussen de tags varieerden. Met andere woorden, hoe relatief goed presteerde het algoritme op afbeeldingen van mensen uit verschillende groepen?
Tests toonden een breed scala aan nauwkeurigheid tussen ontwikkelaars, met de meest nauwkeurige algoritmen die veel minder fouten produceren. Hoewel de focus van het onderzoek lag op individuele algoritmen, Grother wees op vijf bredere bevindingen:
Elke bespreking van demografische effecten is onvolledig als er geen onderscheid wordt gemaakt tussen de fundamenteel verschillende taken en soorten gezichtsherkenning, zei Grom. Dergelijke onderscheidingen zijn belangrijk om te onthouden nu de wereld wordt geconfronteerd met de bredere implicaties van het gebruik van gezichtsherkenningstechnologie.
Wetenschap © https://nl.scienceaq.com