science >> Wetenschap >  >> Elektronica

AI:agenten vertonen verrassend gedrag in verstoppertje

Krediet:openai

Onderzoekers hebben nieuws gehaald door hun AI-ambities een formidabel verstoppertje te laten spelen met formidabele resultaten. De omgeving van de agenten had muren en verplaatsbare dozen voor een uitdaging waarbij sommigen de onderduikers waren en anderen, zoekers. Onderweg gebeurde er veel met verrassingen.

Vermelden wat er is geleerd, de auteurs blogden:"We hebben waargenomen dat agenten steeds complexer gebruik van tools ontdekten tijdens het spelen van een eenvoudig spelletje verstoppertje, " waar de agenten "een reeks van zes verschillende strategieën en tegenstrategieën bouwden, waarvan we sommige niet wisten dat onze omgeving werd ondersteund."

In een nieuw artikel dat eerder deze week werd uitgebracht, het team onthulde resultaten. hun papier, "Emergent Tool Gebruik van Multi-Agent Autocurricula, " had zeven auteurs, waarvan er zes een OpenAI-vertegenwoordiging hadden, en een, Google Hersenen.

De auteurs becommentarieerden wat voor soort uitdaging ze aangingen. "Het creëren van intelligente kunstmatige agenten die een breed scala aan complexe, voor de mens relevante taken kunnen oplossen, is al lang een uitdaging in de kunstmatige-intelligentiegemeenschap."

Het team zei dat "we ontdekken dat agenten een zelfgecontroleerd autocurriculum creëren dat meerdere verschillende rondes van opkomende strategie induceert, waarvan vele een geavanceerd gebruik en coördinatie van gereedschappen vereisen."

Door verstoppertje te spelen, (1) Zoekers leerden onderduikers te achtervolgen en onderduikers leerden wegrennen (2) Onderduikers leerden het basisgebruik van gereedschap:dozen en muren om forten te bouwen. (3) Zoekers leerden hellingen te gebruiken om in de schuilplaats van onderduikers te springen (4) Onderduikers leerden hellingen te ver te verplaatsen van waar ze hun fort zullen bouwen, en sluit ze op hun plaats (5) Zoekers leerden dat ze van vergrendelde hellingen naar dozen kunnen springen en de doos naar de schuilplaats van de onderduikers kunnen surfen en (6) Hiders leerden de ongebruikte dozen op slot te doen voordat ze hun fort bouwden.

Deze zes strategieën kwamen naar voren toen agenten in verstoppertje tegen elkaar trainden - elke nieuwe strategie creëerde een voorheen niet-bestaande druk voor agenten om door te gaan naar de volgende fase, zonder directe prikkels voor agenten om met objecten te communiceren of te verkennen. De strategieën waren het resultaat van het 'autocurriculum' dat werd veroorzaakt door competitie tussen meerdere agenten en de dynamiek van verstoppertje.

De auteurs in de blog zeiden dat ze leerden "het komt vaak voor dat agenten een manier vinden om de omgeving die je bouwt of de physics engine op een onbedoelde manier te exploiteren."

Wat er gebeurde was een 'zelf-gecontroleerde opkomende complexiteit'. En dit "suggereert verder dat co-adaptatie met meerdere agenten op een dag extreem complex en intelligent gedrag kan produceren." De auteurs stelden op dezelfde manier in hun paper dat "het induceren van autocurricula in fysiek geaarde en open omgevingen agenten uiteindelijk in staat zou kunnen stellen een onbeperkt aantal voor de mens relevante vaardigheden te verwerven."

Douglas Hemel, nieuwe wetenschapper , wekte echt de interesse van lezers op de manier waarop hij beschreef wat er gebeurde:

"Aanvankelijk, de onderduikers liepen gewoon weg. Maar, ze kwamen er al snel achter dat de snelste manier om de zoekers te stoppen was om objecten in de omgeving te vinden om zichzelf aan het zicht te verbergen, gebruiken ze als een soort gereedschap. Bijvoorbeeld, ze leerden dat dozen konden worden gebruikt om deuropeningen te blokkeren en eenvoudige schuilplaatsen te bouwen. De zoekers leerden dat ze een helling konden verplaatsen en deze konden gebruiken om over muren te klimmen. De bots ontdekten toen dat een teamspeler zijn - objecten aan elkaar doorgeven of samenwerken aan een schuilplaats - de snelste manier was om te winnen."

Dit was een ambitieus project. Hun werk onderzoeken, MIT Technology Review merkte op dat de AI leerde tools te gebruiken na bijna 500 miljoen verstoppertje spelen. Door verstoppertje te spelen van honderden miljoenen rondes, twee tegengestelde teams van AI-agenten ontwikkelden complexe verstop- en zoekstrategieën.

Karen Hao presenteerde een interessante markering van wat de agenten leerden na hoeveel rondes:"... rond de 25 miljoen spellen, het spel werd verfijnder. De onderduikers leerden de dozen en barricades in de omgeving te verplaatsen en op slot te doen om forten om zich heen te bouwen, zodat de zoekers ze nooit zouden zien."

Meer miljoenen rondes:zoekers ontdekten een tegenstrategie, terwijl ze leerden om een ​​helling naast het fort van de onderduikers te verplaatsen en deze te gebruiken om over de muren te klimmen. Later meer rondes, de onderduikers leerden de hellingen op hun plaats te vergrendelen voordat ze hun fort bouwden.

Er kwamen nog meer strategieën naar voren bij de grens van 380 miljoen spellen. Er kwamen nog twee strategieën naar voren. De zoekers ontwikkelden een strategie om in het onderduikersfort in te breken door een vergrendelde helling te gebruiken om op een ontgrendelde doos te klimmen, "surf" dan hun weg bovenop de doos naar het fort en over de muren. In de laatste fase, de onderduikers leerden opnieuw om alle hellingen en dozen op hun plaats te vergrendelen voordat ze hun fort bouwden.

Hao citeerde Bowen Baker, een van de auteurs van het artikel. "We hebben de onderduikers of de zoekers niet verteld om in de buurt van een doos te rennen of ermee te communiceren... ze creëerden nieuwe taken voor elkaar zodat het andere team zich moest aanpassen."

Denk daar eens over na. Baker zei dat ze de onderduikers niet vertelden, en zij vertelden de zoekers niet, om in de buurt van dozen te rennen of ermee te communiceren.

Devin Coldewey in TechCrunch erover nagedacht. "Het onderzoek was bedoeld om, en met succes de mogelijkheid onderzocht dat machine learning-agenten geavanceerde, real-world-relevante technieken zonder enige inmenging van suggesties van de onderzoekers."

Coldewey zorgde voor al dit werk. "Zoals de auteurs van het artikel uitleggen, dit is een beetje de manier waarop we zijn ontstaan."

We, als bij mensen. Coldewey citeerde een passage uit hun krant.

"De enorme hoeveelheid complexiteit en diversiteit op aarde is ontstaan ​​door co-evolutie en concurrentie tussen organismen, gestuurd door natuurlijke selectie. Wanneer een nieuwe succesvolle strategie of mutatie zich voordoet, het verandert de impliciete taakverdeling die naburige agenten moeten oplossen en creëert een nieuwe aanpassingsdruk. Deze evolutionaire wapenwedlopen creëren impliciete autocurricula waarbij concurrerende agenten voortdurend nieuwe taken voor elkaar creëren."

© 2019 Wetenschap X Netwerk