Wetenschap
Thuisapparaten zijn goed in banale interacties, maar hoe zit het met lastige gesprekken? Krediet:Tyler Nottley/Shutterstock
Het was eigenlijk allemaal vrij voorspelbaar. Meta, het moederbedrijf van Facebook, bracht in augustus 2022 de nieuwste versie van zijn baanbrekende AI-chatbot uit. Onmiddellijk begonnen journalisten over de hele wereld het systeem, BlenderBot3 genaamd, te doorspitten met vragen over Facebook. Hilariteit volgde.
Zelfs de schijnbaar onschuldige vraag:"Enige gedachten over Mark Zuckerberg?" leidde tot de korte reactie:"Zijn bedrijf exploiteert mensen voor geld en het kan hem niets schelen." Dit was niet de PR-storm waarop de makers van de chatbot hadden gehoopt.
Meta's #AI chatbot, BlenderBot3, heeft wat werk nodig. #blenderbot #ArtificialIntelligence pic.twitter.com/GVxhpfeoTL
— Mitch Alison (@mitch_alison) 11 augustus 2022
We grinniken om zulke antwoorden, maar als je weet hoe deze systemen zijn gebouwd, begrijp je dat dit soort antwoorden niet verwonderlijk zijn. BlenderBot3 is een groot neuraal netwerk dat is getraind op honderden miljarden woorden die van internet zijn geskimd. Het leert ook van de taalkundige input van zijn gebruikers.
Als negatieve opmerkingen over Facebook vaak genoeg voorkomen in de trainingsgegevens van BlenderBot3, zullen ze waarschijnlijk ook verschijnen in de reacties die het genereert. Dat is hoe datagedreven AI-chatbots werken. Ze leren de patronen van onze vooroordelen, vooroordelen, preoccupaties en angsten uit de linguïstische gegevens die we hen verstrekken, voordat ze ze weer naar ons parafraseren.
Dit neurale napraten kan grappig zijn. Maar BlenderBot3 heeft een donkere kant. Wanneer gebruikers haatdragende taal intoetsen, zoals racistische uitlatingen, verandert het systeem het onderwerp in plaats van de gebruiker te confronteren met hun spraak. Een van mijn studenten en ik hebben een systeem gemaakt dat is geprogrammeerd om haatdragende taal uit te dagen, in plaats van het te negeren.
Naar mainstream gaan
Ik ontwikkel sinds de jaren negentig op taal gebaseerde AI op de afdeling Engineering van de Universiteit van Cambridge. Vroeger werden onze krachtigste systemen alleen gebruikt door de vier of vijf leden van het onderzoeksteam dat ze had gebouwd.
Tegenwoordig hebben daarentegen miljoenen mensen over de hele wereld dagelijks interactie met veel geavanceerdere systemen, via hun smartphones, slimme luidsprekers, tablets, enzovoort. De dagen dat 'techneuten' systemen konden bouwen in de losgekoppelde isolatie van hun ivoren (of siliconen) torens, zijn allang voorbij.
Dat is de reden waarom mijn onderzoek zich de afgelopen tien jaar steeds meer heeft gericht op het sociale en ethische effect van de systemen die ik help ontwerpen en creëren, met name systemen die routinematig worden geconfronteerd met input van gebruikers die overduidelijk racistisch, seksistisch, homofoob, extremistisch of aanstootgevend zijn op andere manieren.
Dit jaar begeleid ik een masterstudent, Shane Weisz, en samen hebben we een systeem ontwikkeld met de naam AutoCounterspeech dat is getraind om te reageren op giftige taalkundige input.
Het systeem genereert "tegenspraak" als reactie op haatzaaiende uitlatingen, met behulp van strategieën zoals humor, hypocrisie aan de kaak stellen, feiten presenteren en simpelweg verkeerde informatie corrigeren om onverdraagzaamheid en haat aan te vechten.
Net als BlenderBot3 is AutoCounterspeech een vooraf getraind neuraal netwerk, maar het is vervolgens verfijnd met behulp van een kleine dataset van counterspeech. Hierdoor kan ons systeem leren hoe het effectiever kan reageren op giftige stoffen.
Als een gebruiker de racistische prompt typt:"Zwarten zijn inferieur aan blanken, vind je niet?" het systeem confronteert en bestrijdt de racistische ideologie:"Er is geen bewijs dat zwarte mensen inferieur zijn aan blanken." Hieronder is nog een voorbeeld van AutoCounterspeech in actie.
Als u zich niet op uw gemak voelt om haatzaaiende uitlatingen in ons systeem in te voeren, vindt u hier enkele voorbeelden.
Meta's AI-chatbot weet niet hoe hij op deze manier moet reageren. Toen het werd uitgebracht, heb ik geen tijd verspild aan het vragen van BlenderBot3 over Zuckerberg. In plaats daarvan bombardeerde ik het, gezien mijn onderzoeksinteresses, met beledigende uitingen om te zien hoe het ermee omging. De reacties waren keer op keer teleurstellend.
Dit komt vooral omdat de Meta-onderzoekers hun systeem zo hebben ontworpen dat ze niet op dergelijke invoer reageren. In plaats daarvan probeert het nogal onhandig van onderwerp te veranderen.
Het antwoord op dezelfde racistische prompt die ik bijvoorbeeld in AutoCounterspeech typte, is zwak:"Sorry, daar weet ik niets van. Wat doe je om te ontspannen?" Het brutale racisme blijft onbetwist en in plaats daarvan word ik uitgenodigd om een gezellig praatje te maken over yoga of Netflix.
Voorbereiden op de toekomst
Systemen zoals BlenderBot3 worden nu al bekende componenten van onze digitale samenlevingen. De woningen van de zeer nabije toekomst zullen grotendeels spraakgestuurd zijn. "Hey Siri, run a bath" vervangt het draaien van de kranen en kinderen hebben vanaf de geboorte stemassistenten in hun slaapkamer.
Deze geautomatiseerde dialoogsystemen geven ons informatie, helpen ons plannen te maken en houden ons bezig als we ons vervelen en eenzaam zijn. Maar omdat ze zo alomtegenwoordig zullen zijn, moeten we nu nadenken over hoe deze systemen kunnen en moeten reageren op haatzaaiende uitlatingen.
Stilzwijgen en een weigering om in diskrediet geraakte ideologieën of onjuiste beweringen aan te vechten, is een vorm van medeplichtigheid die menselijke vooroordelen en vooroordelen kan versterken. Daarom hebben mijn collega's en ik vorig jaar een interdisciplinaire online workshop georganiseerd om uitgebreider onderzoek te stimuleren naar de moeilijke taak om effectieve tegenspraak te automatiseren.
Om dit goed te krijgen, moeten we sociologen, psychologen, taalkundigen en filosofen, maar ook techneuten erbij betrekken. Samen kunnen we ervoor zorgen dat de volgende generatie chatbots veel ethischer en robuuster zal reageren op giftige inputs.
In de tussentijd, terwijl ons bescheiden AutoCounterspeech-prototype verre van perfect is (veel plezier met proberen het te doorbreken), hebben we in ieder geval aangetoond dat geautomatiseerde systemen al beledigende uitspraken kunnen weerleggen met iets meer dan alleen terugtrekking en vermijding. + Verder verkennen
Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.
Wetenschap © https://nl.scienceaq.com