science >> Wetenschap > >> Elektronica

Een AI heeft zichzelf geleerd een videogame te spelen en nu verslaat hij mensen

Illustratie van agenten die Capture the Flag spelen, verschillende gedragingen laten zien. Krediet:DeepMind

Sinds de vroegste dagen van virtueel schaken en solitaire, videogames zijn een speelveld geweest voor de ontwikkeling van kunstmatige intelligentie (AI). Elke overwinning van de machine op de mens heeft ertoe bijgedragen dat algoritmen slimmer en efficiënter zijn geworden. Maar om problemen in de echte wereld aan te pakken, zoals het automatiseren van complexe taken, waaronder autorijden en onderhandelen, moeten deze algoritmen door complexere omgevingen navigeren dan bordspellen, en leer samenwerken. AI leren werken en communiceren met andere spelers om te slagen was tot nu toe een onoverkomelijke taak.

In een nieuwe studie, onderzoekers hebben een manier uitgewerkt om AI-algoritmen te trainen om menselijke prestatieniveaus te bereiken in een populair 3D-multiplayerspel - een aangepaste versie van Quake III Arena in Capture the Flag-modus.

Hoewel de taak van dit spel eenvoudig is - twee tegengestelde teams strijden om elkaars vlaggen te veroveren door op een kaart te navigeren - vereist winnen complexe besluitvorming en het vermogen om de acties van andere spelers te voorspellen en erop te reageren.

Dit is de eerste keer dat een AI menselijke vaardigheden heeft verworven in een first-person videogame. Dus hoe hebben de onderzoekers het gedaan?

De leercurve van de robot

in 2019, verschillende mijlpalen in AI-onderzoek zijn bereikt in andere multiplayer-strategiespellen. Vijf "bots - spelers bestuurd door een AI - versloegen een professioneel e-sportteam in een spel van DOTA 2. Professionele menselijke spelers werden ook verslagen door een AI in een spel van StarCraft II. In alle gevallen, een vorm van versterkend leren werd toegepast, waarbij het algoritme leert door vallen en opstaan en door interactie met zijn omgeving.

Figuur met winstpercentages van menselijke spelers tegen agenten met vertraagde respons. Deze zijn laag, wat aangeeft dat zelfs met mens-vergelijkbare reactievertragingen, agenten presteren beter dan menselijke spelers. Krediet:DeepMind
Gif met recentere resultaten die agenten spelen in twee verschillende volledige Quake III Arena-kaarten met verschillende spelmodi. Krediet:DeepMind

De vijf bots die mensen versloegen in DOTA 2 leerden niet van het spelen van mensen - ze werden uitsluitend getraind door wedstrijden te spelen tegen klonen van zichzelf. De verbetering waarmee ze professionele spelers konden verslaan, kwam van het schalen van bestaande algoritmen. Door de snelheid van de computer de AI zou in een paar seconden een spel kunnen spelen dat minuten of zelfs uren duurt voor mensen om te spelen. Hierdoor konden de onderzoekers hun AI trainen met 45, 000 jaar gameplay binnen tien maanden realtime.

De Capture the Flag-bot uit de recente studie begon ook helemaal opnieuw te leren. Maar in plaats van tegen zijn identieke kloon te spelen, een cohort van 30 bots is gemaakt en getraind in parallel met hun eigen interne beloningssignaal. Elke bot binnen deze populatie zou dan samen spelen en van elkaar leren. Zoals David Silver - een van de betrokken onderzoekswetenschappers - opmerkt:AI begint "de beperkingen van menselijke kennis weg te nemen... en zelf kennis te creëren."

Video met visualisaties van een spelende agent, evenals enkele voorbeelden van prototypegedrag. Krediet:DeepMind

De leersnelheid voor mensen is nog steeds veel sneller dan de meest geavanceerde leeralgoritmen voor diepe versterking. Zowel OpenAI's bots als DeepMind's AlphaStar (de bot die StarCraft II speelt) verslonden duizenden jaren aan gameplay voordat ze een menselijk prestatieniveau konden bereiken. Een dergelijke opleiding kost naar schatting enkele miljoenen dollars. Hoe dan ook, een autodidactische AI die in staat is om mensen in hun eigen spel te verslaan, is een opwindende doorbraak die de manier waarop we machines zien kan veranderen.

De toekomst van mens en machine

AI wordt vaak geportretteerd ter vervanging of aanvulling van menselijke capaciteiten, maar zelden als een volwaardig teamlid, dezelfde taak uitvoeren als mensen. Aangezien deze videogame-experimenten machine-menselijke samenwerking inhouden, ze bieden een blik op de toekomst.

Hoe CTF te spelen, zoals de agenten hebben aangetoond. Krediet:DeepMind

Menselijke spelers van Capture the Flag beoordeelden de bots als meer collaboratief dan andere mensen, maar spelers van DOTA 2 reageerden gemengd op hun AI-teamgenoten. Sommigen waren best enthousiast, zeggen dat ze zich gesteund voelden en dat ze leerden door samen met hen te spelen. Sheever, een professionele DOTA 2-speler, sprak over haar ervaring met het samenwerken met bots:"Het voelde eigenlijk goed; [de AI-teamgenoot] gaf op een gegeven moment zijn leven voor mij. Hij probeerde me te helpen, denken:'Ik weet zeker dat ze weet wat ze doet' en dat deed ik natuurlijk niet. Maar, je weet wel, hij geloofde in mij. Ik krijg dat niet veel met [menselijke] teamgenoten."

Anderen waren minder enthousiast, maar aangezien communicatie een pijler is van elke relatie, het verbeteren van de communicatie tussen mens en machine zal in de toekomst cruciaal zijn. Onderzoekers hebben al enkele functies aangepast om de bots "mensvriendelijker, " zoals bots kunstmatig laten wachten voordat ze hun personage kiezen tijdens het teamontwerp voor de game, om de mensen niet onder druk te zetten.

Een video van acht agenten die samen de spelmodus one-flag-capture-the-flag spelen op een Quake III Arena-kaart die populair is bij professionele spelers. Krediet:DeepMind

Maar moet AI van ons leren of zichzelf blijven leren? Zelflerend zonder mensen te imiteren zou AI meer efficiëntie en creativiteit kunnen leren, maar dit zou algoritmen kunnen creëren die meer geschikt zijn voor taken waarbij geen menselijke samenwerking nodig is, zoals magazijnrobots.

Anderzijds, je zou kunnen stellen dat het intuïtiever zou zijn om een machine te laten trainen door mensen - mensen die dergelijke AI gebruiken, zouden kunnen begrijpen waarom een machine deed wat hij deed. Naarmate AI slimmer wordt, we zijn allemaal in voor meer verrassingen.

Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.

Patent talk:Apple heeft opvouwbare, duurzaamheid in gedachten

Elektrisch vliegend voertuig op waterstof:lange weg naar lancering

Hoofdlijnen

Wetenschap

Elektronica
Biologie
Zonsverduistering
Wiskunde
French | Italian | Spanish | Portuguese | Swedish | German | Dutch | Danish | Norway |