science >> Wetenschap >  >> Elektronica

Bot kan mensen verslaan in multiplayer-games met verborgen rollen

DeepRole, een door MIT uitgevonden gaming-bot uitgerust met "deductief redeneren, ” kan menselijke spelers verslaan in lastige online multiplayer-games waarin de rollen en motieven van spelers geheim worden gehouden. Krediet:Massachusetts Institute of Technology

MIT-onderzoekers hebben een bot ontwikkeld die is uitgerust met kunstmatige intelligentie die menselijke spelers kan verslaan in lastige online multiplayer-games waarin de rollen en motieven van spelers geheim worden gehouden.

Veel gaming-bots zijn gebouwd om gelijke tred te houden met menselijke spelers. Eerder dit jaar, een team van Carnegie Mellon University ontwikkelde 's werelds eerste bot die professionals kan verslaan in multiplayer poker. DeepMind's AlphaGo haalde de krantenkoppen in 2016 voor het verslaan van een professionele Go-speler. Er zijn ook verschillende bots gebouwd om professionele schakers te verslaan of om hun krachten te bundelen in coöperatieve spellen zoals online de vlag veroveren. Bij deze spellen echter, de bot kent zijn tegenstanders en teamgenoten vanaf het begin.

Op de conferentie over neurale informatieverwerkingssystemen volgende maand, presenteren de onderzoekers DeepRole, de eerste gaming-bot die online multiplayer-games kan winnen waarin de loyaliteit van het team van de deelnemers aanvankelijk onduidelijk is. De bot is ontworpen met een nieuwe "deductieve redenering" toegevoegd aan een AI-algoritme dat gewoonlijk wordt gebruikt voor het spelen van poker. Dit helpt het te redeneren over gedeeltelijk waarneembare acties, om de kans te bepalen dat een bepaalde speler een teamgenoot of tegenstander is. Daarbij, het leert snel met wie het moet samenwerken en welke acties het moet ondernemen om de overwinning van zijn team te verzekeren.

De onderzoekers zetten DeepRole tegenover menselijke spelers in meer dan 4, 000 rondes van het online spel "The Resistance:Avalon." In dit spel, spelers proberen de geheime rollen van hun leeftijdsgenoten af ​​te leiden naarmate het spel vordert, terwijl ze tegelijkertijd hun eigen rollen verbergen. Als zowel een teamgenoot als een tegenstander, DeepRole presteerde consequent beter dan menselijke spelers.

"Als je een menselijke teamgenoot vervangt door een bot, u kunt een hoger winstpercentage voor uw team verwachten. Bots zijn betere partners, " zegt eerste auteur Jack Serrino '18, die afstudeerde in elektrotechniek en computerwetenschappen aan het MIT en een fervent online "Avalon" -speler is.

Het werk maakt deel uit van een breder project om beter te modelleren hoe mensen sociaal geïnformeerde beslissingen nemen. Dit zou kunnen helpen bij het bouwen van robots die beter begrijpen, leren van, en werken met mensen.

"Mensen leren van en werken samen met anderen, en dat stelt ons in staat om samen dingen te bereiken die niemand van ons alleen kan bereiken, " zegt co-auteur Max Kleiman-Weiner, een postdoc in het Centre for Brains, Minds and Machines en het Department of Brain and Cognitive Sciences aan het MIT, en aan de Harvard-universiteit. "Games zoals 'Avalon' bootsen beter de dynamische sociale omgevingen na die mensen in het dagelijks leven ervaren. Je moet uitzoeken wie er in je team zit en met je zal samenwerken, of het nu je eerste dag op de kleuterschool is of een andere dag op kantoor."

Naast Serrino en Kleiman-Weiner op het papier zijn David C. Parkes van Harvard en Joshua B. Tenenbaum, een professor in computationele cognitieve wetenschap en lid van MIT's Computer Science and Artificial Intelligence Laboratory en het Center for Brains, Geesten en machines.

deductieve bot

In "Avalon, " drie spelers worden willekeurig en in het geheim toegewezen aan een "weerstands" -team en twee spelers aan een "spionage" -team. Beide spionspelers kennen de rollen van alle spelers. Tijdens elke ronde, een speler stelt een subset van twee of drie spelers voor om een ​​missie uit te voeren. Alle spelers stemmen gelijktijdig en publiekelijk om de subset goed of af te keuren. Als een meerderheid het goedkeurt, de subset bepaalt in het geheim of de missie zal slagen of mislukken. Als er twee "slaagt" worden gekozen, de missie slaagt; als één "mislukt" is geselecteerd, de missie mislukt. Verzetsspelers moeten er altijd voor kiezen om te slagen, maar spionagespelers kunnen beide uitkomsten kiezen. Het verzetsteam wint na drie succesvolle missies; het spionnenteam wint na drie mislukte missies.

Het winnen van het spel komt in feite neer op het afleiden van wie verzet of spion is, en stemmen op uw medewerkers. Maar dat is rekenkundig complexer dan schaken en poker. "Het is een spel van onvolmaakte informatie, " zegt Kleiman-Weiner. "Je weet niet eens zeker tegen wie je bent als je begint, dus er is een extra ontdekkingsfase om te vinden met wie we kunnen samenwerken."

DeepRole gebruikt een spelplanningsalgoritme genaamd 'counterfactual spijtminimization' (CFR) - dat leert een spel te spelen door herhaaldelijk tegen zichzelf te spelen - aangevuld met deductieve redenering. Op elk punt in een spel, CFR kijkt vooruit om een ​​beslissings-"spelboom" van lijnen en knooppunten te creëren die de mogelijke toekomstige acties van elke speler beschrijven. Spelbomen vertegenwoordigen alle mogelijke acties (lijnen) die elke speler kan nemen op elk toekomstig beslissingspunt. Bij het uitspelen van potentieel miljarden spelsimulaties, CFR merkt op welke acties de winkansen hadden vergroot of verkleind, en herziet iteratief zijn strategie om meer goede beslissingen op te nemen. Eventueel, het plant een optimale strategie die, in het slechtste geval, gelijk is aan elke tegenstander.

CFR werkt goed voor spellen zoals poker, met publieke acties - zoals geld inzetten en een hand folden - maar het worstelt als acties geheim zijn. Het CFR van de onderzoekers combineert openbare acties en gevolgen van privéacties om te bepalen of spelers verzet of spion zijn.

De bot wordt getraind door tegen zichzelf te spelen als zowel weerstand als spion. Bij het spelen van een online game, het gebruikt zijn spelboom om in te schatten wat elke speler gaat doen. De spelboom vertegenwoordigt een strategie die elke speler de grootste kans geeft om te winnen als een toegewezen rol. De knooppunten van de boom bevatten "contrafeitelijke waarden, " wat in feite schattingen zijn voor een uitbetaling die speler ontvangt als ze die bepaalde strategie spelen.

Bij elke missie de bot kijkt naar hoe elke persoon speelde in vergelijking met de spelboom. Indien, gedurende het hele spel, een speler neemt genoeg beslissingen die niet stroken met de verwachtingen van de bot, dan speelt de speler waarschijnlijk de andere rol. Eventueel, de bot kent een hoge waarschijnlijkheid toe aan de rol van elke speler. Deze kansen worden gebruikt om de strategie van de bot bij te werken om zijn kansen op overwinning te vergroten.

Tegelijkertijd, het gebruikt dezelfde techniek om in te schatten hoe een waarnemer van een derde persoon zijn eigen acties zou kunnen interpreteren. Dit helpt het in te schatten hoe andere spelers kunnen reageren, helpen om intelligentere beslissingen te nemen. "Als het een missie voor twee spelers is die mislukt, de andere spelers weten dat één speler een spion is. De bot zal waarschijnlijk niet hetzelfde team voorstellen voor toekomstige missies, omdat het weet dat de andere spelers het slecht vinden, ' zegt Serrino.

Taal:de volgende grens

interessant, de bot hoefde niet te communiceren met andere spelers, wat meestal een belangrijk onderdeel van het spel is. "Avalon" stelt spelers in staat om tijdens het spel te chatten op een tekstmodule. "Maar het blijkt dat onze bot goed kon samenwerken met een team van andere mensen terwijl hij alleen de acties van spelers observeerde, " zegt Kleiman-Weiner. "Dit is interessant, omdat je zou denken dat games als deze ingewikkelde communicatiestrategieën vereisen."

Volgende, de onderzoekers kunnen de bot tijdens games laten communiceren met eenvoudige tekst, zoals zeggen dat een speler goed of slecht is. Dat zou inhouden dat tekst wordt toegewezen aan de gecorreleerde kans dat een speler verzet of spion is, die de bot al gebruikt om zijn beslissingen te nemen. Verder dan dat, een toekomstige bot kan worden uitgerust met complexere communicatiemogelijkheden, waardoor het taalintensieve sociale deductiespellen kan spelen - zoals een populair spel "Werewolf" - waarbij verschillende minuten worden gediscussieerd en andere spelers worden overtuigd over wie in het goede en slechte team zit.

"Taal is absoluut de volgende grens, ", zegt Serrino. "Maar er zijn veel uitdagingen om aan te vallen in die games, waar communicatie zo belangrijk is."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.