Wetenschap
Noam Brown is een Facebook AI-onderzoekswetenschapper terwijl hij zijn Ph.D. bij Carnegie Mellon. Krediet:Noam Brown
Een programma voor kunstmatige intelligentie, ontwikkeld door Carnegie Mellon University in samenwerking met Facebook AI, heeft toonaangevende professionals verslagen in Texas Hold'em-poker met zes spelers zonder limiet. 's werelds meest populaire vorm van poker.
de AI, genaamd Pluribus, versloeg pokerprofessional Darren Elias, die het record heeft voor de meeste World Poker Tour-titels, en Chris "Jezus" Ferguson, winnaar van zes World Series of Poker-evenementen. Elke pro speelde afzonderlijk 5, 000 pokerhanden tegen vijf exemplaren van Pluribus.
In een ander experiment met 13 professionals, die allemaal meer dan $1 miljoen hebben gewonnen met poker, Pluribus speelde vijf profs tegelijk voor een totaal van 10, 000 handen en kwam opnieuw als overwinnaar uit de strijd.
"Pluribus behaalde bovenmenselijke prestaties bij poker voor meerdere spelers, wat een erkende mijlpaal is in kunstmatige intelligentie en in speltheorie die al tientallen jaren open is, " zei Tuomas Sandholm, Angel Jordan hoogleraar computerwetenschappen, die Pluribus ontwikkelde met Noam Brown, die zijn Ph.D. in de Computer Science Department van Carnegie Mellon als onderzoekswetenschapper bij Facebook AI. "Zo ver, bovenmenselijke AI-mijlpalen in strategisch redeneren zijn beperkt tot competitie tussen twee partijen. De mogelijkheid om vijf andere spelers te verslaan in zo'n ingewikkeld spel opent nieuwe mogelijkheden om AI te gebruiken om een breed scala aan echte problemen op te lossen."
Een onderzoekspaper waarin deze prestatie in AI wordt beschreven, zal online worden gepubliceerd door het tijdschrift Wetenschap op donderdag, 11 juli 2019.
"Het spelen van een game met zes spelers in plaats van een-tegen-een vereist fundamentele veranderingen in de manier waarop de AI zijn speelstrategie ontwikkelt. " zei Bruin, die vorig jaar lid werd van Facebook AI. "We zijn opgetogen over de prestaties en geloven dat sommige speelstrategieën van Pluribus zelfs de manier waarop profs het spel spelen kunnen veranderen."
De algoritmen van Pluribus zorgden voor enkele verrassende kenmerken in zijn strategie. Bijvoorbeeld, de meeste menselijke spelers vermijden "donk-weddenschappen" - dat wil zeggen, een ronde eindigen met een call maar de volgende ronde beginnen met een inzet. Het wordt gezien als een zwakke zet die meestal niet strategisch zinvol is. Maar Pluribus plaatste veel vaker donk-bets dan de professionals die het versloeg.
"De grote kracht is het vermogen om gemengde strategieën te gebruiken, " zei Elias vorige week terwijl hij zich voorbereidde op het 2019 World Series of Poker main event. "Dat is hetzelfde wat mensen proberen te doen. Het is een kwestie van uitvoering voor mensen - om dit op een volkomen willekeurige manier te doen en dit consequent te doen. De meeste mensen kunnen dat gewoon niet."
Pluribus boekte een solide overwinning met statistische significantie, die bijzonder indrukwekkend is gezien de oppositie, zei Elias. "De bot speelde niet alleen tegen een paar gemiddelde pro's, hij speelde tegen enkele van de beste spelers ter wereld."
Michael "Gags" Gagliano, die bijna $ 2 miljoen aan carrière-inkomsten heeft verdiend, ook streden tegen Pluribus.
"Het was ongelooflijk fascinerend om tegen de pokerbot te spelen en enkele strategieën te zien die hij koos", zei Gagliano. "Er waren verschillende toneelstukken die mensen gewoon helemaal niet maken, vooral met betrekking tot de grootte van de weddenschap. Bots/AI zijn een belangrijk onderdeel in de evolutie van poker, en het was geweldig om ervaring uit de eerste hand te hebben met deze grote stap naar de toekomst."
Sandholm heeft meer dan 16 jaar leiding gegeven aan een onderzoeksteam dat computerpoker bestudeert. Hij en Brown ontwikkelden eerder Libratus, die twee jaar geleden beslissend vier pokerpro's versloeg met een gecombineerde 120, 000 handen heads-up no-limit Texas hold'em, een versie voor twee spelers van het spel.
Games zoals schaken en Go hebben lange tijd gediend als mijlpalen voor AI-onderzoek. In die spellen, alle spelers kennen de status van het speelbord en alle stukken. Maar poker is een grotere uitdaging omdat het een onvolledig informatiespel is; spelers weten niet zeker welke kaarten er in het spel zijn en tegenstanders kunnen en zullen bluffen. Dat maakt het zowel een moeilijkere AI-uitdaging als relevanter voor veel echte problemen waarbij meerdere partijen betrokken zijn en ontbrekende informatie.
Alle AI's die bovenmenselijke vaardigheden vertoonden bij games voor twee spelers, deden dit door het zogenaamde Nash-evenwicht te benaderen. Genoemd naar wijlen Carnegie Mellon-alumnus en Nobelprijswinnaar John Forbes Nash Jr., een Nash-evenwicht is een paar strategieën (één per speler) waarbij geen van beide spelers kan profiteren van het veranderen van strategie zolang de strategie van de andere speler hetzelfde blijft. Hoewel de strategie van de AI alleen een resultaat garandeert dat niet slechter is dan een gelijkspel, de AI komt als overwinnaar naar voren als zijn tegenstander misrekeningen maakt en het evenwicht niet kan handhaven.
In een spel met meer dan twee spelers, het spelen van een Nash-evenwicht kan een verliezende strategie zijn. Pluribus ziet dus af van theoretische garanties voor succes en ontwikkelt strategieën die het desondanks in staat stellen om tegenstanders consequent te verslaan.
Pluribus berekent eerst een "blauwdruk"-strategie door zes kopieën van zichzelf te spelen, wat voldoende is voor de eerste inzetronde. Vanaf dat moment, Pluribus doet een meer gedetailleerde zoektocht naar mogelijke zetten in een fijnmazigere abstractie van het spel. Terwijl het dat doet, kijkt het verschillende zetten vooruit, maar je hoeft niet helemaal vooruit te kijken tot het einde van het spel, wat rekenkundig onbetaalbaar zou zijn. Zoeken met beperkte vooruitblik is een standaardbenadering in games met perfecte informatie, maar is extreem uitdagend in spellen met onvolmaakte informatie. Een nieuw zoekalgoritme met beperkte vooruitblik is de belangrijkste doorbraak die Pluribus in staat stelde bovenmenselijke poker voor meerdere spelers te bereiken.
specifiek, de zoektocht is een onvolmaakte informatiespeloplossing van een subspel met beperkte vooruitblik. Bij de bladeren van dat subspel, de AI overweegt vijf mogelijke vervolgstrategieën die elke tegenstander en zichzelf voor de rest van het spel kunnen toepassen. Het aantal mogelijke vervolgstrategieën is veel groter, maar de onderzoekers ontdekten dat hun algoritme slechts vijf vervolgstrategieën per speler bij elk blad hoeft te overwegen om een sterke, evenwichtige algemene strategie.
Pluribus wil ook onvoorspelbaar zijn. Bijvoorbeeld, wedden zou logisch zijn als de AI de best mogelijke hand had, maar als de AI alleen inzet als hij de beste hand heeft, tegenstanders zullen snel aanslaan. Dus Pluribus berekent hoe het zou handelen met elke mogelijke hand die het zou kunnen hebben en berekent vervolgens een strategie die evenwichtig is over al deze mogelijkheden.
Hoewel poker een ongelooflijk ingewikkeld spel is, Pluribus maakte efficiënt gebruik van berekeningen. AI's die recente mijlpalen in games hebben bereikt, hebben grote aantallen servers en/of farms van GPU's gebruikt; Libratus gebruikte ongeveer 15 miljoen kernuren om zijn strategieën te ontwikkelen en, tijdens live spelen, gebruikt 1, 400 CPU-kernen. Pluribus berekende zijn blauwdrukstrategie in acht dagen met slechts 12, 400 core-uren en slechts 28 cores gebruikt tijdens live spelen.
Wetenschap © https://nl.scienceaq.com