Wetenschap
Krediet:Microsoft
Een paar baanbrekende artikelen in computervisie openen nieuwe perspectieven op mogelijkheden op het gebied van het creëren van zeer echt ogende, natuurlijke beelden en het synthetiseren van realistische, identiteitsbehoudende gezichtsbeelden. In CVAE-GAN:fijnkorrelige beeldgeneratie door asymmetrische training, afgelopen oktober gepresenteerd op ICCV 2017 in Venetië, het team van onderzoekers van Microsoft en de Universiteit van Wetenschap en Technologie van China kwam met een model voor het genereren van afbeeldingen op basis van een variabel autoencoder generatief vijandig netwerk dat in staat is om natuurlijke afbeeldingen te synthetiseren in wat bekend staat als fijnkorrelige categorieën. Fijnmazige categorieën omvatten gezichten van specifieke personen, zeggen van beroemdheden, of objecten uit de echte wereld, zoals specifieke soorten bloemen of vogels.
De onderzoekers – Dong Chen, Fang Wen en Gang Hua van Microsoft, Jianmin Bao, een stagiair bij Microsoft Research, samen met Houqiang Li van de Chinese Universiteit voor Wetenschap en Technologie – bij het zoeken naar manieren om effectieve generatieve modellen van natuurlijke beelden te bouwen, worstelden ze met een belangrijk probleem in computervisie:hoe zeer diverse en toch realistische beelden te genereren door een eindig aantal latente parameters met betrekking tot de natuurlijke distributie van elk beeld in de wereld. De uitdaging lag in het bedenken van een generatief model om die gegevens vast te leggen. Ze kozen voor een aanpak met behulp van generatieve vijandige netwerken in combinatie met een variatieve auto-encoder om hun leerraamwerk te bedenken. De aanpak modelleert elk beeld als een samenstelling van label en latente attributen in een probabilistisch model. Door het fijnmazige categorielabel te variëren (zeg, "oriole" of "spreeuw" voor specifieke vogelsoorten, of de namen van specifieke beroemdheden) die in het generatieve model zouden worden ingevoerd, het team was in staat om afbeeldingen in specifieke categorieën te synthetiseren met behulp van willekeurig getrokken waarden met betrekking tot de latente attributen. Het is pas sinds kort dat dit soort diepgaand leren het modelleren van de distributie van afbeeldingen van specifieke objecten in de wereld mogelijk maakt, waardoor we uit dat model kunnen putten om het beeld in wezen te synthetiseren, legde Gang Hua uit, hoofdonderzoeker bij Microsoft Research in Redmond, Washington.
"Onze aanpak heeft twee nieuwe aspecten, "zei Hua. "Eerst, we hebben een cross-entropieverlies aangenomen voor het discriminerende en classificatienetwerk, maar hebben gekozen voor een gemiddelde discrepantiedoelstelling voor het generatieve netwerk. De resulterende asymmetrische verliesfunctie en het effect ervan op de machine learning-aspecten van het raamwerk waren bemoedigend. de training van de GAN's stabieler, " zei Hua. "We hebben een asymmetrisch verlies ontworpen om het instabiliteitsprobleem bij het trainen van vanille-GAN's aan te pakken, dat specifiek numerieke problemen aanpakt bij het matchen van twee niet-overlappende distributies."
De andere innovatie was het gebruik van een encodernetwerk dat de relatie tussen de latente ruimte kon leren en paarsgewijze functie-matching kon gebruiken om de structuur van de gesynthetiseerde beelden te behouden.
Experimenteren met natuurlijke afbeeldingen - echte foto's van echte dingen die in de natuur worden gevonden, zoals gezichten, bloemen en vogels, de onderzoekers konden aantonen dat hun machine learning-modellen herkenbare afbeeldingen konden synthetiseren met een indrukwekkende variëteit binnen zeer specifieke categorieën. De mogelijke toepassingen omvatten alles, van het inschilderen van afbeeldingen, tot data-augmentatie en betere gezichtsherkenningsmodellen.
"Onze technologie loste een fundamentele uitdaging op bij het genereren van afbeeldingen, die van de beheersbaarheid van identiteitsfactoren. Dit stelt ons in staat om afbeeldingen te genereren zoals we willen dat ze eruitzien. zei Hua."
Gezichten synthetiseren
Hoe breng je de kracht om realistische afbeeldingen van bloemen of vogels te synthetiseren een stap verder? Je kijkt naar menselijke gezichten. Menselijke gezichten, wanneer genomen in de context van identiteit, behoren tot de meest geavanceerde beelden die in de natuur kunnen worden vastgelegd. In de richting van een open-set identiteitsbehoudende gezichtssynthese, deze maand gepresenteerd op CVPR 2018 in Salt Lake City, de onderzoekers ontwikkelden een op GAN gebaseerd raamwerk dat de identiteit en attributen van gezichten kan ontrafelen, met attributen waaronder intrinsieke eigenschappen zoals de vorm van neuzen en monden of zelfs leeftijd, evenals omgevingsfactoren, zoals verlichting of dat er make-up op het gezicht is aangebracht. Terwijl eerdere processen voor het synthetiseren van gezichten met identiteitsbehoud grotendeels beperkt waren tot het synthetiseren van gezichten met bekende identiteiten die al in de trainingsdataset waren opgenomen, de onderzoekers ontwikkelden een methode om identiteitsbehoudende gezichtssynthese in open domeinen te bereiken - dat wil zeggen, voor een gezicht dat buiten een trainingsdataset viel. Om dit te doen, ze kwamen terecht op een unieke methode om één invoerafbeelding van een onderwerp te gebruiken die een identiteitsvector zou produceren en deze te combineren met een andere invoergezichtsafbeelding (niet van dezelfde persoon) om een attribuutvector te extraheren, zoals poseren, emotie of verlichting. De identiteitsvector en de attribuutvector worden vervolgens opnieuw gecombineerd om een nieuw gezicht te synthetiseren voor het subject met het geëxtraheerde attribuut. Opmerkelijk, het raamwerk hoeft op geen enkele manier de kenmerken van een van de gezichten te annoteren en te categoriseren. Het is getraind met een asymmetrische verliesfunctie om de identiteit beter te behouden en de machine learning-aspecten te stabiliseren. Indrukwekkend, het kan ook effectief gebruik maken van enorme hoeveelheden niet-gelabelde afbeeldingen van trainingsgezichten (denk aan willekeurige gezichtsafbeeldingen) om de getrouwheid of nauwkeurigheid van de gesynthetiseerde gezichten verder te verbeteren.
Een voor de hand liggende toepassing voor de consument is het klassieke voorbeeld van de uitdaging van de fotograaf om een groepsfoto te maken met tientallen onderwerpen; het gemeenschappelijke doel is de ongrijpbare ideale opname waarin alle onderwerpen worden vastgelegd met open ogen en zelfs lachend. "Met onze technologie het mooie is dat ik letterlijk een lachend gezicht kon toveren voor elk van de deelnemers aan de opname!", roept Hua uit. Wat dit totaal anders maakt dan alleen beeldbewerking, zegt Hua, is dat de werkelijke identiteit van het gezicht behouden blijft. Met andere woorden, hoewel het beeld van een lachende deelnemer is gesynthetiseerd - een "moment" dat in werkelijkheid niet plaatsvond, het gezicht is onmiskenbaar dat van het individu; zijn of haar identiteit is bewaard gebleven in het proces van het veranderen van het beeld.
Hua ziet veel nuttige toepassingen die de samenleving ten goede komen en ziet constante verbeteringen in beeldherkenning, video-begrip en zelfs de kunsten.
Wetenschap © https://nl.scienceaq.com