science >> Wetenschap >  >> Elektronica

Onderzoekers gebruiken gezichtsuitdrukkingen om deepfakes te ontmaskeren

Aan je linker kant, Saturday Night Live-ster Kate McKinnon imiteert Elizabeth Warren tijdens een sketch, en aan de rechterkant, face swap deepfake-technologie is gebruikt om het gezicht van Warren op dat van McKinnon te plaatsen. Credit:UC Berkeley-foto door Stephen McNally

Na urenlang videobeelden te hebben bekeken van voormalig president Barack Obama die zijn wekelijkse toespraak hield, Shruti Agarwal begon een paar eigenaardigheden op te merken in de manier waarop Obama spreekt.

"Elke keer als hij 'Hoi, iedereen, hij beweegt zijn hoofd naar links of naar rechts, en dan tuit hij zijn lippen, " zei Agarwal, een afgestudeerde informaticastudent aan UC Berkeley.

Agarwal en haar scriptieadviseur Hany Farid, een inkomende professor in de afdeling Elektrotechniek en Computerwetenschappen en in de School of Information van UC Berkeley, racen om digitale forensische hulpmiddelen te ontwikkelen die "deepfakes, " hyperrealistische AI-gegenereerde video's van mensen die dingen doen of zeggen die ze nooit hebben gedaan of gezegd.

Het zien van deze patronen in de toespraak van de echte Obama bracht Agarwal op een idee.

"Ik realiseerde me dat er één ding gemeen is tussen al deze deepfakes, en dat is dat ze de neiging hebben om de manier waarop iemand praat te veranderen, ' zei Agarwal.

Agarwal's inzicht bracht haar en Farid ertoe om het nieuwste wapen in de oorlog tegen deepfakes te creëren:een nieuwe forensische benadering die de subtiele kenmerken van hoe een persoon spreekt, kan gebruiken, zoals Obama's duidelijke hoofdknikken en lipportemonnees, om te herkennen of een nieuwe video van die persoon echt of nep is.

Hun techniek, die Agarwal deze week presenteerde op de Computer Vision and Pattern Recognition-conferentie in Long Beach, CA, kunnen worden gebruikt om journalisten te helpen, beleidsmakers, en het publiek blijft nepvideo's van politieke of economische leiders een stap voor die kunnen worden gebruikt om een ​​verkiezing te beïnvloeden, een financiële markt destabiliseren, of zelfs aanzetten tot burgerlijke onrust en geweld.

Onderzoekers van UC Berkeley en USC haasten zich om nieuwe technieken te ontwikkelen om deepfakes van politieke leiders te detecteren. Deze video toont twee voorbeelden van deepfakes, "face swap" en "lip-sync, ” die werden geproduceerd door USC-computerwetenschappers voor onderzoeksdoeleinden, en een nieuwe techniek die het team heeft ontwikkeld om ze te spotten. Credit:UC Berkeley-video door Roxanne Makasdjian en Stephen McNally

"Stel je nu een wereld voor, waar niet alleen het nieuws dat je leest al dan niet echt is - dat is de wereld waarin we de afgelopen twee jaar hebben geleefd, sinds de verkiezingen van 2016, maar waar de afbeeldingen en video's die je ziet al dan niet echt zijn, " zei Farid, die op 1 juli zijn ambtstermijn bij UC Berkeley begint. "Het gaat niet alleen om deze nieuwste ontwikkelingen in het maken van nepbeelden en video. Het is de injectie van deze technieken in een ecosysteem dat al nepnieuws promoot, sensationeel nieuws en complottheorieën."

De nieuwe techniek werkt omdat alle drie de meest voorkomende deepfake-technieken - bekend als "lip-sync, " "gezicht wisselen, " en "poppenspeler, "- omvatten het combineren van audio en video van de ene bron met een afbeelding van een andere bron, het creëren van een scheiding die door een scherpe kijker kan worden ontdekt - of een geavanceerd computermodel.

Met behulp van de "face swap"-techniek, bijvoorbeeld, men zou een deepfake van Donald Trump kunnen creëren door het gezicht van Trump op een video te plaatsen van Alec Baldwin die een imitatie van Trump doet, zodat het bijna is alsof Baldwin een nauwsluitend Trump-masker draagt. Maar Baldwins gezichtsuitdrukkingen zullen nog steeds zichtbaar zijn door het masker, zei Agarwal.

"Het nieuwe beeld dat wordt gecreëerd, zal de uitdrukkingen en het gezichtsgedrag van Alec Baldwin hebben, maar het gezicht van Trump, ' zei Agarwal.

Hetzelfde, in een "lip-sync" deepfake, AI-algoritmen nemen een bestaande video van een pratende persoon, en de lipbewegingen in de video aanpassen aan die van een nieuwe audio, waarbij de audio een oudere spraak kan zijn die uit de context is gehaald, een imitator die spreekt, of gesynthetiseerde spraak. Vorig jaar, acteur en regisseur Jordan Peele gebruikte deze techniek om een ​​virale video te maken van Obama die opruiende dingen zegt over president Trump.

Maar in deze video's alleen de lipbewegingen worden veranderd, dus de uitdrukkingen op de rest van het gezicht komen mogelijk niet meer overeen met de woorden die worden gesproken.

Om het idee te testen, Agarwal en Farid verzamelden videobeelden van vijf belangrijke politieke figuren:Hillary Clinton, Barack Obama, Bernie Sanders, Donald Trump en Elizabeth Warren - en hebben ze door de open-source toolkit voor gezichtsgedraganalyse OpenFace2 geleid, die gezichtstics uitpikte zoals opgetrokken wenkbrauwen, neus rimpels, kaakdruppels en geperste lippen.

OpenFace-trackingsoftware analyseert een echte video van president Obama aan de linkerkant, en een "lip-sync" deepfake aan de rechterkant. Credit:UC Berkeley-foto door Stephen McNally

Vervolgens gebruikten ze de output om te creëren wat het team 'zachte biometrische' modellen noemt, die gezichtsuitdrukkingen en hoofdbewegingen correleren voor elke politieke leider. Ze ontdekten dat elke leider een andere manier van spreken had en, toen ze deze modellen gebruikten om echte video's en deepfakes te analyseren die waren gemaakt door hun medewerkers aan de University of Southern California, ze ontdekten dat de modellen tussen 92 en 96 procent van de tijd de echte van de nep konden onderscheiden, afhankelijk van de leider en de lengte van de video.

"Het basisidee is dat we deze zachte biometrische modellen van verschillende wereldleiders kunnen bouwen, zoals presidentskandidaten voor 2020, en als de video's beginnen te breken, bijvoorbeeld, we kunnen ze analyseren en proberen te bepalen of we denken dat ze echt zijn of niet, ' zei Farid.

In tegenstelling tot sommige digitale forensische technieken, die vervalsingen identificeren door beeldartefacten op te sporen die tijdens het fabricageproces zijn achtergebleven, de nieuwe methode kan nog steeds vervalsingen herkennen die zijn gewijzigd door eenvoudige digitale verwerking, zoals vergroten of verkleinen of comprimeren.

Maar het is niet onfeilbaar. De techniek werkt goed wanneer toegepast op politieke figuren die toespraken en formele toespraken houden, omdat ze de neiging hebben vast te houden aan goed geoefend gedrag in deze omgevingen. Maar het werkt misschien niet zo goed voor video's van deze mensen in andere instellingen:bijvoorbeeld Obama mag niet hetzelfde karakteristieke hoofdknikje geven bij het begroeten van zijn maatjes.

Deepfake-makers kunnen deze spraakpatronen ook onder de knie krijgen en leren deze op te nemen in hun video's van wereldleiders, aldus de onderzoekers.

Agarwal zegt dat ze hoopt dat de nieuwe aanpak zal helpen om wat tijd te winnen in de steeds evoluerende race om deepfakes te spotten.

"We proberen gewoon een beetje de overhand te krijgen in dit kat-en-muisspel van het detecteren en creëren van nieuwe deepfakes, ' zei Agarwal.