science >> Wetenschap >  >> Elektronica

Zinnen omzetten in media:kunnen we kunstmatige intelligentie leren waarnemen?

Krediet:Pixabay/CC0 publiek domein

Mensen nemen de wereld waar via verschillende zintuigen:we zien, voelen, horen, proeven en ruiken. De verschillende zintuigen waarmee we waarnemen zijn meerdere informatiekanalen, ook wel multimodaal genoemd. Betekent dit dat wat we waarnemen als multimedia kan worden gezien?

Xue Wang, Ph.D. Kandidaat bij LIACS vertaalt perceptie naar multimedia en gebruikt kunstmatige intelligentie (AI) om informatie uit multimodale processen te extraheren, vergelijkbaar met hoe het brein informatie verwerkt. In haar onderzoek heeft ze leerprocessen van AI op vier verschillende manieren getest.

Woorden in vectoren zetten

Eerst keek Xue naar word-embedded learning:de vertaling van woorden in vectoren. Een vector is een grootheid met twee eigenschappen, namelijk een richting en een grootte. Dit deel gaat specifiek in op hoe de classificatie van informatie kan worden verbeterd. Xue stelde het gebruik van een nieuw AI-model voor dat woorden aan afbeeldingen koppelt, waardoor het gemakkelijker wordt om woorden te classificeren. Tijdens het testen van het model kan een waarnemer tussenbeide komen als de AI iets verkeerd heeft gedaan. Uit het onderzoek blijkt dat dit model beter presteert dan een eerder gebruikt model.

Kijken naar subcategorieën

Een tweede focus van het onderzoek zijn afbeeldingen die vergezeld gaan van andere informatie. Voor dit onderwerp zag Xue het potentieel van het labelen van subcategorieën, ook bekend als fijnkorrelig labelen. Ze gebruikte een specifiek AI-model om het gemakkelijker te maken om afbeeldingen met weinig tekst eromheen te categoriseren. Het voegt grove labels, die algemene categorieën zijn, samen met fijnkorrelige labels, de subcategorieën. De aanpak is effectief en helpt bij het structureren van gemakkelijke en moeilijke categorisaties.

Het vinden van relaties tussen afbeeldingen en tekst

Ten derde deed Xue onderzoek naar beeld- en tekstassociatie. Een probleem met dit onderwerp is dat de transformatie van deze informatie niet lineair is, wat betekent dat het moeilijk te meten kan zijn. Xue vond een mogelijke oplossing voor dit probleem:ze gebruikte op kernel gebaseerde transformatie. Kernel staat voor een specifieke klasse van algoritmen in machine learning. Met het gebruikte model is het nu voor AI mogelijk om de betekenisrelatie tussen afbeeldingen en tekst te zien.

Contrast zoeken in afbeeldingen en tekst

Ten slotte richtte Xue zich op afbeeldingen met tekst. In dit onderdeel moest AI kijken naar contrasten tussen woord en beeld. Het AI-model voerde een taak uit die fraseaarding wordt genoemd, wat het koppelen van zelfstandige naamwoorden in afbeeldingsbijschriften aan delen van de afbeelding is. Er was geen waarnemer die zich met deze taak kon bemoeien. Uit het onderzoek bleek dat AI voor dit onderzoeksgebied met een gemiddelde nauwkeurigheid beeldregio's aan zelfstandige naamwoorden kan koppelen.

De perceptie van kunstmatige intelligentie

Dit onderzoek levert een grote bijdrage op het gebied van multimediale informatie:we zien dat AI woorden kan classificeren, afbeeldingen kan categoriseren en afbeeldingen aan tekst kan koppelen. Verder onderzoek kan gebruik maken van de door Xue voorgestelde methoden en zal hopelijk leiden tot nog betere inzichten in de multimediale perceptie van AI.