Wetenschap
Afbeelding gegenereerd op basis van de tekst "Gelukkige groenten die op het avondeten wachten.". Credit:Ludwig Maximilian Universiteit van München
Binnen enkele seconden afbeeldingen van tekst maken - en dat met een conventionele grafische kaart en zonder supercomputers? Hoe fantasievol het ook mag klinken, dit wordt mogelijk gemaakt door het nieuwe Stable Diffusion AI-model. Het onderliggende algoritme is ontwikkeld door de Machine Vision &Learning Group onder leiding van Prof. Björn Ommer (LMU München).
"Zelfs voor leken die niet gezegend zijn met artistiek talent en zonder speciale computerkennis en computerhardware, is het nieuwe model een effectief hulpmiddel waarmee computers op commando afbeeldingen kunnen genereren. Als zodanig neemt het model een barrière weg voor gewone mensen om hun creativiteit te uiten ’, zegt Ommer. Maar er zijn ook voordelen voor doorgewinterde kunstenaars, die Stable Diffusion kunnen gebruiken om nieuwe ideeën snel om te zetten in een verscheidenheid aan grafische ontwerpen. De onderzoekers zijn ervan overtuigd dat dergelijke op AI gebaseerde tools de mogelijkheden van creatieve beeldgeneratie met penseel en Photoshop net zo fundamenteel zullen uitbreiden als computergebaseerde tekstverwerking een revolutie teweegbracht in het schrijven met pennen en typemachines.
In hun project kregen de LMU-wetenschappers de steun van de start-up Stability.Ai, op wiens servers het AI-model werd getraind. "Deze extra rekenkracht en de extra trainingsvoorbeelden maakten van ons AI-model een van de krachtigste algoritmen voor beeldsynthese", zegt de computerwetenschapper.
De essentie van miljarden trainingsafbeeldingen
Een bijzonder aspect van de aanpak is dat het ondanks alle kracht van het getrainde model toch zo compact is dat het op een conventionele grafische kaart draait en geen supercomputer nodig heeft zoals vroeger het geval was voor beeldsynthese. Daartoe destilleert de kunstmatige intelligentie de essentie van miljarden trainingsbeelden tot een AI-model van slechts enkele gigabyte.
"Zodra een dergelijke AI echt heeft begrepen wat een auto is of welke kenmerken typisch zijn voor een artistieke stijl, zal het precies deze opvallende kenmerken hebben begrepen en zou het idealiter in staat moeten zijn om verdere voorbeelden te creëren, net zoals de studenten in een oude meesterwerkplaats kunnen produceren werk in dezelfde stijl”, legt Ommer uit. Bij het nastreven van het doel van de LMU-wetenschappers om computers te laten leren zien - dat wil zeggen, de inhoud van afbeeldingen begrijpen - is dit weer een grote stap voorwaarts, die het basisonderzoek op het gebied van machine learning en computervisie verder bevordert.
Het getrainde model is onlangs gratis vrijgegeven onder de "CreativeML Open RAIL-M"-licentie om verder onderzoek en bredere toepassing van deze technologie te vergemakkelijken. "We zijn verheugd om te zien wat er met de huidige modellen zal worden gebouwd en om te zien welke verdere werken uit open, gezamenlijke onderzoeksinspanningen zullen komen", zegt doctoraal onderzoeker Robin Rombach. + Verder verkennen
Wetenschap © https://nl.scienceaq.com