Wetenschap
Bij het spelen van het coöperatieve kaartspel Hanabi voelden mensen zich gefrustreerd en verward door de bewegingen van hun AI-teamgenoot. Krediet:Bryan Mastergeorge
Als het gaat om spellen zoals schaken of Go, hebben programma's voor kunstmatige intelligentie (AI) de beste spelers ter wereld ver overtroffen. Deze 'bovenmenselijke' AI's zijn ongeëvenaarde concurrenten, maar samenwerken met hen is misschien moeilijker dan tegen mensen te strijden. Kan dezelfde technologie met mensen overweg?
In een nieuwe studie probeerden onderzoekers van het MIT Lincoln Laboratory erachter te komen hoe goed mensen het coöperatieve kaartspel Hanabi konden spelen met een geavanceerd AI-model dat getraind was om uit te blinken in het spelen met teamgenoten die het nog nooit eerder had ontmoet. In enkelblinde experimenten speelden deelnemers twee series van het spel:een met de AI-agent als hun teamgenoot en de andere met een op regels gebaseerde agent, een bot die handmatig is geprogrammeerd om op een vooraf gedefinieerde manier te spelen.
De resultaten verrasten de onderzoekers. Niet alleen waren de scores niet beter met de AI-teamgenoot dan met de op regels gebaseerde agent, maar mensen hadden een consequente hekel aan spelen met hun AI-teamgenoot. Ze vonden het onvoorspelbaar, onbetrouwbaar en onbetrouwbaar, en voelden zich negatief, zelfs als het team goed scoorde. Een paper waarin deze studie wordt beschreven, is geaccepteerd voor de 2021 Conference on Neural Information Processing Systems (NeurIPS).
"Het benadrukt echt het genuanceerde onderscheid tussen het creëren van AI die objectief goed presteert en het creëren van AI die subjectief wordt vertrouwd of de voorkeur heeft", zegt Ross Allen, co-auteur van het artikel en een onderzoeker in de Artificial Intelligence Technology Group. "Het lijkt misschien dat die dingen zo dichtbij zijn dat er niet echt daglicht tussen is, maar deze studie toonde aan dat dit eigenlijk twee afzonderlijke problemen zijn. We moeten eraan werken om die te ontwarren."
Mensen die hun AI-teamgenoten haten, kunnen een punt van zorg zijn voor onderzoekers die deze technologie ontwerpen om op een dag met mensen te werken aan echte uitdagingen, zoals verdedigen tegen raketten of het uitvoeren van complexe operaties. Deze dynamiek, teaming-intelligentie genoemd, is een volgende grens in AI-onderzoek en maakt gebruik van een bepaald soort AI, versterkingsleren genaamd.
Een versterkende lerende AI wordt niet verteld welke acties moeten worden ondernomen, maar ontdekt in plaats daarvan welke acties de meeste numerieke "beloning" opleveren door scenario's steeds opnieuw uit te proberen. Het is deze technologie die de bovenmenselijke schaak- en Go-spelers heeft voortgebracht. In tegenstelling tot op regels gebaseerde algoritmen, zijn deze AI niet geprogrammeerd om "als/dan"-statements te volgen, omdat de mogelijke uitkomsten van de menselijke taken die ze moeten uitvoeren, zoals autorijden, veel te veel zijn om te coderen.
"Reinforcement learning is een veel algemenere manier om AI te ontwikkelen. Als je het kunt trainen om het schaakspel te leren spelen, hoeft die agent niet per se een auto te besturen. Maar je kunt dezelfde algoritmen gebruiken om te trainen een andere agent om een auto te besturen, met de juiste gegevens", zegt Allen. "The sky is the limit in wat het in theorie zou kunnen doen."
Slechte hints, slecht spel
Tegenwoordig gebruiken onderzoekers Hanabi om de prestaties te testen van versterkingsleermodellen die zijn ontwikkeld voor samenwerking, op vrijwel dezelfde manier waarop schaken decennialang als benchmark heeft gediend voor het testen van concurrerende AI.
Het spel Hanabi is verwant aan een multiplayer-vorm van Solitaire. Spelers werken samen om kaarten van dezelfde reeks op volgorde te stapelen. Spelers mogen echter niet hun eigen kaarten bekijken, alleen de kaarten die hun teamgenoten hebben. Elke speler is strikt beperkt in wat ze aan hun teamgenoten kunnen communiceren om hen de beste kaart uit hun eigen hand te laten kiezen om als volgende te stapelen.
De onderzoekers van het Lincoln Laboratory hebben noch de AI noch de op regels gebaseerde middelen ontwikkeld die in dit experiment worden gebruikt. Beide agenten vertegenwoordigen de beste in hun vakgebied voor Hanabi-prestaties. Toen het AI-model eerder werd gekoppeld aan een AI-teamgenoot waarmee het nog nooit eerder had gespeeld, behaalde het team de hoogste score ooit voor Hanabi-spel tussen twee onbekende AI-agenten.
"Dat was een belangrijk resultaat", zegt Allen. "We dachten:als deze AI die elkaar nog nooit eerder hebben ontmoet, samen kunnen komen en heel goed kunnen spelen, dan zouden we mensen moeten kunnen brengen die ook heel goed kunnen spelen met de AI, en ze zullen het ook heel goed doen. Daarom dachten we dat het AI-team objectief beter zou spelen, en ook waarom we dachten dat mensen er de voorkeur aan zouden geven, omdat we over het algemeen iets beters leuk vinden als we het goed doen."
Geen van beide verwachtingen kwam uit. Objectief gezien was er geen statistisch verschil in de scores tussen de AI en de op regels gebaseerde agent. Subjectief gezien rapporteerden alle 29 deelnemers in enquêtes een duidelijke voorkeur voor de op regels gebaseerde teamgenoot. De deelnemers werden niet geïnformeerd met welke agent ze voor welke spellen speelden.
"Een deelnemer zei dat ze zo gestrest waren door het slechte spel van de AI-agent dat ze er zelfs hoofdpijn van kregen", zegt Jaime Pena, een onderzoeker bij de AI Technology and Systems Group en een auteur van de krant. "Een ander zei dat ze dachten dat de op regels gebaseerde agent dom maar werkbaar was, terwijl de AI-agent liet zien dat hij de regels begreep, maar dat zijn bewegingen niet overeenkwamen met hoe een team eruitziet. Voor hen gaf het slechte hints, slechte plays maken."
Onmenselijke creativiteit
Deze perceptie van AI die 'slechte toneelstukken' maakt, houdt verband met verrassend gedrag dat onderzoekers eerder hebben waargenomen bij leerwerk voor versterking. Bijvoorbeeld, in 2016, toen DeepMind's AlphaGo voor het eerst een van 's werelds beste Go-spelers versloeg, was een van de meest geprezen zetten van AlphaGo zet 37 in game 2, een zet die zo ongebruikelijk was dat menselijke commentatoren dachten dat het een vergissing was. Latere analyse onthulde dat de verhuizing eigenlijk buitengewoon goed was berekend en werd beschreven als 'geniaal'.
Dergelijke bewegingen kunnen worden geprezen wanneer een AI-tegenstander ze uitvoert, maar ze zullen minder snel worden gevierd in een teamomgeving. De onderzoekers van het Lincoln Laboratory ontdekten dat vreemde of schijnbaar onlogische bewegingen de grootste boosdoeners waren bij het breken van het vertrouwen van mensen in hun AI-teamgenoot in deze nauw met elkaar verbonden teams. Dergelijke bewegingen verminderden niet alleen de perceptie van spelers van hoe goed zij en hun AI-teamgenoot samenwerkten, maar ook hoe graag ze met de AI wilden werken, vooral wanneer een mogelijke uitbetaling niet meteen duidelijk was.
"Er was veel commentaar over opgeven, opmerkingen als "Ik haat het om met dit ding te werken", voegt Hosea Siu toe, ook een auteur van het artikel en een onderzoeker bij de Control and Autonomous Systems Engineering Group.
Deelnemers die zichzelf beoordeelden als Hanabi-experts, wat de meerderheid van de spelers in dit onderzoek deed, gaven vaker de AI-speler op. Siu vindt dit zorgwekkend voor AI-ontwikkelaars, omdat de belangrijkste gebruikers van deze technologie waarschijnlijk domeinexperts zullen zijn.
"Laten we zeggen dat je een superslimme AI-geleidingsassistent opleidt voor een raketverdedigingsscenario. Je geeft het niet door aan een stagiair; je geeft het door aan je experts op je schepen die dit al 25 jaar doen Dus als er een sterke vooringenomenheid van experts is in gamescenario's, zal het waarschijnlijk verschijnen in real-world operaties, "voegt hij eraan toe.
Squishy mensen
De onderzoekers merken op dat de AI die in deze studie werd gebruikt, niet is ontwikkeld voor menselijke voorkeur. Maar dat is een deel van het probleem - dat zijn er niet veel. Zoals de meeste collaboratieve AI-modellen, is dit model ontworpen om zo hoog mogelijk te scoren, en het succes ervan is gebenchmarkt door zijn objectieve prestaties.
Als onderzoekers zich niet concentreren op de kwestie van de subjectieve menselijke voorkeur, "zullen we geen AI creëren die mensen echt willen gebruiken", zegt Allen. "Het is gemakkelijker om aan AI te werken die een heel zuiver cijfer verbetert. Het is veel moeilijker om aan AI te werken die werkt in deze papperige wereld van menselijke voorkeuren."
Het oplossen van dit moeilijkere probleem is het doel van het MeRLin-project (Mission-Ready Reinforcement Learning), waarvoor dit experiment werd gefinancierd in het Lincoln Laboratory's Technology Office, in samenwerking met de U.S. Air Force Artificial Intelligence Accelerator en het MIT Department of Electrical Engineering and Computer Wetenschap. Het project bestudeert wat heeft verhinderd dat collaboratieve AI-technologie uit de gameruimte is gesprongen en in een rommeligere realiteit is terechtgekomen.
De onderzoekers denken dat het vermogen van de AI om zijn acties uit te leggen, vertrouwen zal wekken. Dit zal de focus van hun werk zijn voor het komende jaar.
"You can imagine we rerun the experiment, but after the fact—and this is much easier said than done—the human could ask, 'Why did you do that move, I didn't understand it?' If the AI could provide some insight into what they thought was going to happen based on their actions, then our hypothesis is that humans would say, 'Oh, weird way of thinking about it, but I get it now,' and they'd trust it. Our results would totally change, even though we didn't change the underlying decision-making of the AI," Allen says.
Like a huddle after a game, this kind of exchange is often what helps humans build camaraderie and cooperation as a team.
"Maybe it's also a staffing bias. Most AI teams don't have people who want to work on these squishy humans and their soft problems," Siu adds, laughing. "It's people who want to do math and optimization. And that's the basis, but that's not enough."
Mastering a game such as Hanabi between AI and humans could open up a universe of possibilities for teaming intelligence in the future. But until researchers can close the gap between how well an AI performs and how much a human likes it, the technology may well remain at machine versus human.
Wetenschap © https://nl.scienceaq.com