Wetenschap
Krediet:CC0 Publiek Domein
Ben jij slimmer dan een machine learning-model? Laten we het uitzoeken. Kies het antwoord dat in tegenspraak is met de volgende premisse:
Bob heeft een zus genaamd Sarah.
Als je C hebt gekozen, Gefeliciteerd!
Dergelijke voorbeelden lijken misschien eenvoudig, maar ze lijken een goede indicatie te zijn van het taalbegrip van een machine. De test heet Natural Language Inference en wordt vaak gebruikt om het vermogen van een model om een relatie tussen twee teksten te begrijpen te meten. Mogelijke relaties zijn gevolg (zoals in voorbeeld A), neutraal (B), en tegenspraak (C).
Datasets met honderdduizenden van deze vragen, gegenereerd door mensen, hebben geleid tot een explosie van nieuwe neurale netwerkarchitecturen voor het oplossen van natuurlijke taalinferentie. Door de jaren heen, deze neurale netwerken zijn steeds beter geworden. De ultramoderne modellen van vandaag krijgen bij deze tests meestal het equivalent van een B+. Mensen scoren meestal een A of A-.
Maar onderzoekers ontdekten onlangs dat machine learning-modellen het nog steeds opmerkelijk goed doen als ze alleen het antwoord krijgen, ook wel de hypothese genoemd, zonder het oorspronkelijke uitgangspunt. Bijvoorbeeld, een model met alleen "Bob heeft geen zus" zal raden dat dit een tegenstrijdige hypothese is, zelfs als het niet het uitgangspunt is "Bob heeft een zus genaamd Sarah."
Zoals het blijkt, deze datasets zitten vol met menselijke vooroordelen. Toen hem werd gevraagd om met tegenstrijdige zinnen te komen, mensen gebruiken vaak ontkenningen, zoals "niet doen" of "niemand". Echter, vertrouwen op deze aanwijzingen kan ertoe leiden dat machine learning-modellen ook ten onrechte "Bob heeft geen auto" een tegenstrijdigheid noemen.
"Deze modellen leren niet de relatie tussen teksten te begrijpen, ze leren menselijke eigenaardigheden vast te leggen, " zei Yonatan Belinkov, eerste auteur van het artikel en een postdoctoraal onderzoeker in computerwetenschappen aan de Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS).
Om dit tegen te gaan, Belinkov en collega's ontwikkelden een nieuwe methode om machine learning-modellen te bouwen die de afhankelijkheid van het model van deze vooroordelen vermindert.
Het team presenteert hun onderzoek op de 57e jaarlijkse bijeenkomst van de Association for Computational Linguistics (ACL) in Florence, Italië op 28 juli - 2 augustus.
Het is gebruikelijk om de typische Natural Language Inference-test te modelleren als een enkele stroom - het uitgangspunt en de hypothese worden beide samen verwerkt en toegevoerd aan een classificator die tegenspraak voorspelt, neutraal of meeslepend.
Het team heeft een tweede stroom aan het model toegevoegd, deze met alleen de hypothese. Het model leert natuurlijke taalinferentie uit te voeren met beide streams tegelijk, maar als het het goed doet aan de kant van de hypothese, het is bestraft. Deze benadering moedigt het model aan om zich meer op de premisse te concentreren en zich te onthouden van het leren van de vooroordelen die hebben geleid tot succesvolle prestaties met alleen hypothesen.
"Onze hoop is dat met deze methode, het model is niet alleen gericht op vooringenomen woorden, zoals "nee" of "niet, " maar het heeft eerder iets diepers geleerd, " zei Stuart Shieber, James O. Welch, Jr. en Virginia B. Welch Professor in Computer Science aan SEAS en co-auteur van het artikel.
Die vooroordelen, echter, kunnen ook belangrijke contextuele aanwijzingen zijn om het probleem op te lossen, dus het is van cruciaal belang om ze niet te veel te devalueren.
"Er is een dunne lijn tussen vooringenomenheid en bruikbaarheid, " zei Gabriël Grand, CS '18, die aan het project werkte als onderdeel van zijn afstudeerscriptie. "Het bereiken van topprestaties betekent dat je veel aannames vergeet, maar niet allemaal."
(Groots proefschrift, "Learning Interpretable and Bias-Free Models for Visual Question Answering" werd bekroond met de Thomas Temple Hoopes-prijs 2018-2019 voor uitmuntend wetenschappelijk werk of onderzoek.)
Door veel van deze aannames te verwijderen, het is niet verwonderlijk dat het model met twee stromen het iets slechter deed op de gegevens waarop het was getraind dan het model dat niet werd bestraft voor het vertrouwen op vooroordelen. Echter, toen het werd getest op nieuwe datasets - met verschillende vooroordelen - deed het model het aanzienlijk beter.
"Hoewel het model een paar procentpunten slechter deed op zijn eigen dataset, het heeft geleerd om niet zo veel op vooroordelen te vertrouwen. Dus, deze methode levert een model op dat algemener presteert en robuuster is, ' zei Shieber.
Deze methode kan van toepassing zijn op een reeks kunstmatige-intelligentietaken waarvoor diepere relaties moeten worden geïdentificeerd, zoals het visueel beantwoorden van vragen, begrijpend lezen, en andere natuurlijke taaltaken, terwijl oppervlakkige vooroordelen worden vermeden.
Wetenschap © https://nl.scienceaq.com