science >> Wetenschap >  >> Elektronica

De punten verbinden tussen stem en een menselijk gezicht

Krediet:arXiv:1905.09773 [cs.CV]

Alweer, kunstmatige-intelligentieteams plagen het rijk van het onmogelijke en leveren verrassende resultaten op. Dit team in het nieuws heeft op basis van stem uitgezocht hoe iemands gezicht eruit kan zien. Welkom bij Speech2Face. Het onderzoeksteam vond een manier om de zeer ruwe gelijkenis van sommige mensen te reconstrueren op basis van korte audioclips.

Het artikel dat hun werk beschrijft, staat op arXiv, en is getiteld "Speech2Face:het gezicht achter een stem leren". Auteurs zijn Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, Willem Vrijman, Michael Rubinstein en Wojciech Matusiky. "Ons doel in dit werk is om te onderzoeken in hoeverre we kunnen afleiden hoe een persoon eruitziet uit de manier waarop ze praten."

Ze evalueren en kwantificeren numeriek hoe, en op welke manier, hun Speech2Face-reconstructies van audio lijken op de echte gezichtsbeelden van de luidsprekers.

De auteurs wilden blijkbaar zeker weten dat hun bedoeling duidelijk was, niet als een poging om stemmen te koppelen aan beelden van de specifieke mensen die daadwerkelijk spraken, als "ons doel is niet om een ​​herkenbaar beeld van het exacte gezicht te voorspellen, maar eerder om dominante gezichtskenmerken van de persoon vast te leggen die gecorreleerd zijn met de input-spraak."

De auteurs op GitHub zeiden dat ze het ook belangrijk vonden om ethische overwegingen in de paper te bespreken "vanwege de potentiële gevoeligheid van gezichtsinformatie."

Ze zeiden in hun paper dat hun methode "de ware identiteit van een persoon niet kan achterhalen uit hun stem (d.w.z. een exacte afbeelding van hun gezicht). Dit komt omdat ons model is getraind om visuele kenmerken vast te leggen (gerelateerd aan leeftijd, geslacht, enz.) die veel mensen gemeen hebben, en alleen in gevallen waar er sterk genoeg bewijs is om die visuele kenmerken te verbinden met vocale / spraakkenmerken in de gegevens."

Ze zeiden ook dat het model gemiddeld uitziende gezichten zal produceren - alleen gemiddeld uitziende gezichten - met karakteristieke visuele kenmerken die gecorreleerd zijn met de invoerspraak.

Jackie Sneeuw, Snel bedrijf , schreven over hun werkwijze. Snow zei dat de dataset die ze namen, bestond uit clips van YouTube. Speech2Face is door wetenschappers getraind op video's van internet waarop mensen praten. Ze creëerden een neuraal netwerkgebaseerd model dat "vocale attributen leert die verband houden met gelaatstrekken uit de video's."

sneeuw heeft toegevoegd, "Nutsvoorzieningen, wanneer het systeem een ​​nieuwe soundbite hoort, de AI kan gebruiken wat het heeft geleerd om te raden hoe het gezicht eruit zou kunnen zien."

neurohive bespraken hun werk:"Uit de video's, ze extraheren spraak-gezichtsparen, die worden ingevoerd in twee takken van de architectuur. De afbeeldingen worden gecodeerd in een latente vector met behulp van het vooraf getrainde gezichtsherkenningsmodel, terwijl de golfvorm in een spraakcodering wordt ingevoerd in de vorm van een spectrogram, om de kracht van convolutionele architecturen te benutten. De gecodeerde vector van de stemcodeerder wordt ingevoerd in de gezichtsdecoder om de uiteindelijke gezichtsreconstructie te verkrijgen."

Je kunt ook een nauwkeurig rapport krijgen over hun methode en hoe ze hebben getest met een artikel over Packt :

"Ze zeiden dat ze verder evalueerden en numeriek kwantificeerden hoe hun Speech2Face reconstrueert, verkrijgt resultaten rechtstreeks uit audio, en hoe het lijkt op de echte gezichtsbeelden van de luidsprekers. Voor deze, ze hebben hun model zowel kwalitatief als kwantitatief getest op de AVSpeech-dataset en de VoxCeleb-dataset."

Hoe kunnen hun bevindingen toepassingen in de echte wereld helpen? Ze zeiden, "wij zijn van mening dat het voorspellen van gezichtsbeelden rechtstreeks vanuit spraak nuttige toepassingen kan ondersteunen, zoals het toevoegen van een representatief gezicht aan telefoon-/videogesprekken op basis van de stem van de spreker."

Waarom hun werk ertoe doet:denk aan patronen. "Eerder onderzoek heeft methoden onderzocht om leeftijd en geslacht uit spraak te voorspellen, " zei Sneeuw, "maar in dit geval de onderzoekers beweren dat ze ook correlaties hebben ontdekt met sommige gezichtspatronen."

© 2019 Wetenschap X Netwerk