Wetenschap
Krediet:Aleutie/Shutterstock
Online vertaalhulpmiddelen hebben ons geholpen nieuwe talen te leren, communiceren over taalgrenzen heen, en bekijk buitenlandse websites in onze moedertaal. Maar de kunstmatige intelligentie (AI) erachter is verre van perfect, vaak repliceren in plaats van verwerpen de vooroordelen die bestaan binnen een taal of een samenleving.
Dergelijke instrumenten zijn bijzonder kwetsbaar voor genderstereotypering, omdat sommige talen (zoals Engels) niet de neiging hebben om zelfstandige naamwoorden te geslacht, terwijl anderen (zoals Duits) dat wel doen. Bij het vertalen van het Engels naar het Duits, vertaaltools moeten beslissen welk geslacht Engelse woorden zoals 'cleaner' toewijzen. overweldigend, de tools voldoen aan het stereotype, kiezen voor het vrouwelijke woord in het Duits.
Vooroordelen zijn menselijk:ze maken deel uit van wie we zijn. Maar als het niet wordt betwist, vooroordelen kunnen ontstaan in de vorm van een concrete negatieve houding ten opzichte van anderen. Nutsvoorzieningen, ons team heeft een manier gevonden om de AI achter vertaaltools om te scholen, door middel van gerichte training om genderstereotypering te voorkomen. Onze methode zou op andere gebieden van AI kunnen worden gebruikt om de technologie te helpen afwijzen, in plaats van te repliceren, vooroordelen binnen de samenleving.
Bevooroordeelde algoritmen
Tot ongenoegen van hun makers, AI-algoritmen ontwikkelen vaak racistische of seksistische trekken. Google Translate is beschuldigd van stereotypering op basis van geslacht, zoals de vertalingen die veronderstellen dat alle artsen mannelijk zijn en alle verpleegsters vrouwelijk. In de tussentijd, de AI-taalgenerator GPT-3 - die in 2020 een heel artikel voor The Guardian schreef - toonde onlangs aan dat het ook schokkend goed was in het produceren van schadelijke inhoud en verkeerde informatie.
Hongaars is een genderneutrale taal, het heeft geen geslachtsgebonden voornaamwoorden, dus Google Translate kiest automatisch het geslacht voor je. Dit is hoe alledaags seksisme consequent wordt gecodeerd in 2021. Fuck you, Googlen. pic.twitter.com/EPqkEw5yEQ
— Dora Vargha (@DoraVargha) 20 maart 2021
Deze AI-fouten zijn niet noodzakelijk de schuld van hun makers. Academici en activisten vestigden onlangs de aandacht op gendervooroordelen in de Oxford English Dictionary, waar seksistische synoniemen van "vrouw" - zoals "teef" of "meid" - laten zien hoe zelfs een voortdurend herziene, academisch bewerkte woordencatalogus kan vooroordelen bevatten die stereotypen versterken en het alledaagse seksisme in stand houden.
AI leert vooroordelen omdat het niet in een vacuüm is gebouwd:het leert denken en handelen door te lezen, het analyseren en categoriseren van bestaande gegevens, zoals die in de Oxford English Dictionary. In het geval van vertaling AI, we stellen het algoritme bloot aan miljarden woorden tekstuele gegevens en vragen het de patronen die het detecteert te herkennen en ervan te leren. We noemen dit proces machine learning, en gaandeweg worden patronen van vooringenomenheid geleerd, evenals die van grammatica en syntaxis.
Ideaal, de tekstuele gegevens die we AI laten zien, bevatten geen vooroordelen. Maar er is een voortdurende trend in het veld om grotere systemen te bouwen die zijn getraind op steeds groter wordende datasets. We hebben het over honderden miljarden woorden. Deze worden verkregen van internet met behulp van niet-onderscheidende tools voor het schrapen van tekst, zoals Common Crawl en WebText2, die over het web plunderen, elk woord dat ze tegenkomen opslokken.
De enorme omvang van de resulterende gegevens maakt het voor een mens onmogelijk om daadwerkelijk te weten wat er in zit. Maar we weten wel dat een deel ervan afkomstig is van platforms zoals Reddit, die de krantenkoppen heeft gehaald voor het kenmerken van aanstootgevende, valse of samenzweerderige informatie in berichten van gebruikers.
Nieuwe vertalingen
In ons onderzoek, we wilden zoeken naar een manier om de bias in tekstuele datasets die van internet zijn geschraapt, tegen te gaan. Onze experimenten gebruikten een willekeurig geselecteerd deel van een bestaand Engels-Duits corpus (een selectie van tekst) dat oorspronkelijk 17,2 miljoen paar zinnen bevatte - de helft in het Engels, de helft in het duits
Zoals we hebben benadrukt, Duits heeft geslachtsvormen voor zelfstandige naamwoorden (dokter kan "der Arzt" zijn voor mannelijk, "die Ärztin" voor vrouwelijk) waar we in het Engels deze zelfstandige naamwoorden niet geslacht (met enkele uitzonderingen, zelf controversieel, zoals "acteur" en "actrice").
Onze analyse van deze gegevens bracht duidelijke genderspecifieke onevenwichtigheden aan het licht. Bijvoorbeeld, we ontdekten dat de mannelijke vorm van ingenieur in het Duits (der Ingenieur) 75 keer vaker voorkwam dan zijn vrouwelijke tegenhanger (die Ingenieurin). Een vertaaltool die op deze gegevens is getraind, zal deze vooringenomenheid onvermijdelijk repliceren, het vertalen van "ingenieur" naar de mannelijke "der Ingenieur." Dus wat kan er worden gedaan om dit te voorkomen of te verminderen?
Vooroordelen overwinnen
Een schijnbaar eenvoudig antwoord is om het corpus te 'balanceren' voordat je computers vraagt om ervan te leren. Misschien, bijvoorbeeld, het toevoegen van meer vrouwelijke ingenieurs aan het corpus zou voorkomen dat een vertaalsysteem ervan uitgaat dat alle ingenieurs mannen zijn.
Helaas, er zijn problemen met deze aanpak. Vertaaltools worden dagenlang getraind op miljarden woorden. Ze omscholen door het geslacht van woorden te veranderen is mogelijk, maar het is inefficiënt, duur en ingewikkeld. Het aanpassen van het geslacht in talen als Duits is vooral een uitdaging omdat, om grammaticaal zinvol te zijn, meerdere woorden in een zin moeten mogelijk worden gewijzigd om de geslachtswisseling weer te geven.
In plaats van deze moeizame herbalancering van de geslachten, we besloten om bestaande vertaalsystemen om te scholen met gerichte lessen. Toen we een vooroordeel zagen in bestaande tools, we besloten om ze om te scholen op nieuwe, kleinere datasets - een beetje zoals een middag gender-sensitiviteitstraining op het werk.
Deze aanpak kost een fractie van de tijd en middelen die nodig zijn om modellen helemaal opnieuw te trainen. We konden slechts een paar honderd geselecteerde vertaalvoorbeelden gebruiken - in plaats van miljoenen - om het gedrag van vertaal-AI op gerichte manieren aan te passen. Bij het testen van gendergerelateerde beroepen in vertaling - zoals we hadden gedaan met 'ingenieurs' - waren de nauwkeurigheidsverbeteringen na aanpassing ongeveer negen keer hoger dan de 'gebalanceerde' omscholingsaanpak.
In ons onderzoek, we wilden laten zien dat het aanpakken van verborgen vooroordelen in enorme datasets niet hoeft te betekenen dat miljoenen trainingsvoorbeelden moeizaam moeten worden aangepast, een taak die het risico loopt als onmogelijk te worden afgedaan. In plaats daarvan, vooringenomenheid uit gegevens kan gericht en afgeleerd worden - een les die andere AI-onderzoekers kunnen toepassen op hun eigen werk.
Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.
Als je door het park loopt en een straathond door het gras ziet rennen, is het niet zo moeilijk om delen van het erfgoed te identificer
Wetenschap © https://nl.scienceaq.com