Wetenschap
Overzicht van de taken in IGLUE, waaronder gegronde natuurlijke taalinferentie, visuele vraagbeantwoording, gefundeerd redeneren en cross-modaal ophalen. Elke taak is gekoppeld aan een voorbeeld van invoer en uitvoer (Engelse vertalingen onderaan). Credit:Procedures van de negenendertigste internationale conferentie over machinaal leren (2022). DOI:10.48550/arXiv.2201.11732
Zoveel talen; en toch mag het Engels bijna totale overheersing hebben als het gaat om de AI-technologie Machine Learning (ML). Als onderzoekers bijvoorbeeld een computer trainen in het begrijpen van de inhoud van een willekeurige tekst, zijn de trainingsvoorbeelden doorgaans in het Engels.
"Dit introduceert een aanzienlijke onbedoelde culturele vooringenomenheid. Zelfs na uitgebreide training zal de machine nooit zijn blootgesteld aan het temmen van stieren in India, aan Chinees koken in hete potten of aan andere fenomenen die miljoenen mensen bekend zijn, maar die toevallig liegen buiten de Engelssprekende horizon", zegt Ph.D. onderzoeker Emanuele Bugliarello, Afdeling Computerwetenschappen (DIKU), Universiteit van Kopenhagen.
In een echt interculturele inspanning hebben Bugliarello en collega's uit verschillende landen een nieuwe tool ontwikkeld die een meer diverse benadering aanmoedigt. IGLUE (Image-Grounded Language Understanding Evaluation), zoals ze de tool hebben genoemd, is een benchmark waarmee de efficiëntie van een ML-oplossing in 20 talen kan worden gescoord (in plaats van alleen Engels).
Hun wetenschappelijke artikel waarin IGLUE wordt geïntroduceerd, is geaccepteerd voor publicatie in de komende Proceedings of The Thirty-ninth International Conference on Machine Learning , een van de topconferenties in het veld.
Vrijwilligers leverden cultuurspecifieke afbeeldingen
Hoe kan een nieuwe benchmark het verschil maken?
"Wanneer ML-onderzoeksteams nieuwe oplossingen creëren, zijn ze altijd zeer competitief. Als een andere groep erin is geslaagd een bepaalde ML-taak met een nauwkeurigheid van 98 procent op te lossen, probeer je 99 procent te krijgen, enzovoort. Dit is wat het veld drijft. Maar het nadeel is dat als je geen goede benchmark hebt voor een bepaalde functie, deze geen prioriteit krijgt. Dit is het geval geweest voor multimodale ML en IGLUE is onze poging om de situatie te veranderen", zegt Bugliarello.
Training baseren op afbeeldingen is standaard in ML. De afbeeldingen zijn echter meestal "gelabeld", wat betekent dat er stukjes tekst bij elke afbeelding zullen staan, wat het leerproces van de machine bevordert. Hoewel de labels normaal gesproken in het Engels zijn, beslaat IGLUE 20 typologisch diverse talen, verspreid over 11 taalfamilies, 9 scripts en 3 geografische macrogebieden.
Een deel van de afbeeldingen in IGLUE zijn cultuurspecifiek. Deze beelden zijn verkregen via een mailcampagne. De onderzoekers vroegen vrijwilligers in geografisch diverse landen om afbeeldingen en teksten aan te leveren in hun natuurlijke taal en liefst over zaken die in dat land belangrijk waren.
Overweldigd door positieve reacties
Het huidige gebrek aan multimodale ML heeft wel praktische implicaties, legt Bugliarello uit:
"Laten we zeggen dat je een voedselallergie hebt en dat je een app hebt die je kan vertellen of de problematische ingrediënten in een maaltijd aanwezig zijn. Als je in een restaurant in China bent, realiseer je je dat het menu allemaal in het Chinees is, maar heeft foto's. Als je app is goed, het kan de afbeelding vertalen in een recept, maar alleen als de machine tijdens de training is blootgesteld aan Chinese monsters."
Met andere woorden, niet-Engelstaligen krijgen een slechtere versie van op ML gebaseerde oplossingen:
"De prestaties van veel top ML-oplossingen zullen onmiddellijk afnemen, omdat ze worden blootgesteld aan gegevens uit niet-Engelstalige landen. En met name missen de ML-oplossingen concepten en ideeën die niet in Europa of Noord-Amerika worden gevormd. Dit is iets die de ML-onderzoeksgemeenschap moet aanpakken", zegt Bugliarello.
Gelukkig hebben veel collega's het licht gezien, merkt Bugliarello op:
"Dit begon allemaal een paar jaar geleden toen we een paper schreven voor de EMNLP-conferentie (Empirical Methods in Natural Language Processing). We wilden alleen maar wijzen op een probleem, maar werden al snel overspoeld met interesse, en tot onze verbazing was onze bijdrage geselecteerd als Beste Long Paper. Mensen zagen het probleem duidelijk en we werden aangemoedigd om meer te doen."
Kan visueel gehandicapten helpen
Soms voelt het huidige succes bijna als een last, geeft Bugliarello toe:
"Als openbare universiteit hebben we beperkte middelen. We kunnen niet alle aspecten van deze enorme taak uitvoeren. Toch zien we dat andere groepen meedoen. We voelen ook interesse van de grote techbedrijven. Ze zijn sterk betrokken bij ML en beginnen zich te realiseren hoe Engelse vooringenomenheid een probleem kan zijn. Het is duidelijk dat ze niet blij zijn dat de prestaties van hun oplossingen aanzienlijk afnemen wanneer ze buiten de Engelstalige context worden toegepast."
Ondanks de positieve ontwikkelingen laat Bugliarello zich niet meeslepen. Op de vraag hoe dicht we bij het bereiken van onbevooroordeelde Machine Learning zijn, antwoordt hij:
"Oh, we zijn heel ver weg."
Toch gaat het niet alleen om culturele gelijkheid:
"De methodologie achter IGLUE kan verschillende toepassingen vinden. We hopen bijvoorbeeld oplossingen voor slechtzienden te verbeteren. Er bestaan tools die slechtzienden helpen bij het volgen van de plot van een film of een ander type visuele communicatie. Deze tools zijn momenteel verre van perfect , en ik zou ze heel graag willen verbeteren. Dit is echter een beetje verder in de toekomst", zegt Bugliarello + Verder verkennen
Wetenschap © https://nl.scienceaq.com