science >> Wetenschap >  >> Elektronica

AlphaZero AI-systeem in staat om zichzelf te leren games te spelen, speel op het hoogste niveau

Beginnend met willekeurig spelen en gezien geen domeinkennis behalve de spelregels, AlphaZero versloeg op overtuigende wijze een programma van wereldkampioenen in zowel schaken en shogi (Japans schaken) als Go. Krediet:DeepMind Technologies Ltd

Een team van onderzoekers van de DeepMind-groep en University College, zowel in het VK, heeft een AI-systeem ontwikkeld dat zichzelf drie moeilijke bordspellen kan leren spelen en beheersen. In hun artikel gepubliceerd in het tijdschrift Wetenschap , de groep beschrijft hun nieuwe systeem en legt uit waarom ze denken dat het een nieuwe grote stap voorwaarts is in de ontwikkeling van AI-systemen. Murray Campbell van het T.J Watson Research Center in de VS biedt in hetzelfde tijdschriftnummer een Perspective-artikel over het werk van het team.

Het is meer dan 20 jaar geleden dat een supercomputer, bekend als Deep Blue, wereldkampioen schaken Gary Kasparov versloeg. de wereld laten zien hoe ver AI-computing was gekomen. In de jaren daarna, computers zijn steeds slimmer geworden en verslaan nu mensen bij spellen als schaken, shogi en Go. Maar dergelijke systemen zijn allemaal aangepast om ze echt goed te maken in slechts één game. In deze nieuwe poging de onderzoekers hebben een AI-systeem gemaakt dat niet alleen goed is in meer dan één game, maar verwerft dergelijke expertise op zijn eigen.

Het nieuwe systeem, genaamd AlphaZero, is een versterkend leersysteem, die, zoals de naam al aangeeft, betekent dat het leert door herhaaldelijk een spel te spelen en te leren van zijn ervaringen. Dit is, natuurlijk, vergelijkbaar met hoe mensen leren. Er wordt een basisset met regels opgesteld en vervolgens speelt de computer het spel - met zichzelf. Het hoeft niet eens met andere partners te spelen. Het speelt zichzelf herhaaldelijk af, opmerken welke spelen goede zetten zijn en dus winnen, en die slechte zetten en verliezen vormen. Overuren, het verbetert. Eventueel, het wordt zo goed dat het niet alleen mensen kan verslaan, maar andere speciale bordspel-AI-systemen. Het systeem gebruikte ook een zoekmethode die bekend staat als de Monte Carlo-boomzoekmethode. Door de twee technologieën te combineren, kan het systeem zichzelf leren hoe het beter kan worden in het spelen van games. De onderzoekers gaven hun testsysteem veel kracht, ook, door 5000 tensorverwerkingseenheden in te zetten, waardoor het op één lijn staat met grote supercomputers.

Toernooievaluatie van AlphaZero in schaken, shogi, en gaan, als gewonnen wedstrijden, getekend of verloren vanuit het perspectief van AlphaZero, in wedstrijden tegen Stockfish, Elmo, en AlphaGo Zero (AG0) die drie dagen werd getraind. Krediet:DeepMind Technologies Ltd

Zo ver, AlphaZero beheerst het schaken, shogi en Go—games die bijzonder geschikt zijn voor AI-toepassingen. Campbell suggereert dat de volgende stap voor dergelijke systemen zou kunnen zijn om uit te breiden naar spellen zoals poker, of zelfs populaire videogames.

bij schaken, AlphaZero presteerde voor het eerst beter dan Stockfish na slechts 4 uur; in shogi, AlphaZero presteerde eerst beter dan Elmo na 2 uur; en in Go, AlphaZero presteerde eerst beter dan de versie van AlphaGo die in 2016 na 30 uur de legendarische speler Lee Sedol versloeg. Opmerking:elke trainingsstap staat voor 4, 096 bestuursfuncties. Krediet:DeepMind Technologies Ltd

AlphaZero doorzoekt slechts een klein deel van de posities die door traditionele schaakengines worden overwogen. Krediet:DeepMind Technologies Ltd

© 2018 Wetenschap X Netwerk