science >> Wetenschap >  >> Elektronica

Leren lesgeven om het leren te versnellen

Met behulp van een nieuwe coöperatieve leertechniek, MIT-IBM Watson AI Lab-onderzoekers halveerden de tijd die een paar robotagenten nodig hadden om te leren manoeuvreren naar weerszijden van een virtuele kamer. Krediet:Dong-ki Kim

De eerste kunstmatige-intelligentieprogramma's om 's werelds beste spelers bij schaken en het spel Go te verslaan, kregen op zijn minst enige instructie van mensen, en uiteindelijk, geen partij zou blijken te zijn voor een nieuwe generatie AI-programma's die volledig zelfstandig leren, door vallen en opstaan.

Een combinatie van deep learning en versterkende leeralgoritmen zorgt ervoor dat computers dominant worden in uitdagende bordspellen zoals schaken en Go, een groeiend aantal videogames, waaronder mevrouw Pac-Man, en wat kaartspellen, inclusief pokeren. Maar voor alle vooruitgang, computers lopen nog steeds vast naarmate een game meer op het echte leven lijkt, met verborgen informatie, meerdere spelers, continu spelen, en een mix van korte- en langetermijnbeloningen die het berekenen van de optimale zet hopeloos complex maken.

Om over deze hindernissen heen te komen, AI-onderzoekers onderzoeken complementaire technieken om robotagenten te helpen leren, gemodelleerd naar de manier waarop mensen nieuwe informatie oppikken, niet alleen zelf, maar van de mensen om ons heen, en uit kranten, boeken, en andere media. Een door het MIT-IBM Watson AI Lab ontwikkelde collectieve leerstrategie biedt een veelbelovende nieuwe richting. Onderzoekers tonen aan dat een paar robotagenten de tijd die nodig is om een ​​eenvoudige navigatietaak te leren met 50 procent of meer kan verkorten wanneer de agenten leren om gebruik te maken van elkaars groeiende hoeveelheid kennis.

Het algoritme leert de agenten wanneer ze om hulp moeten vragen, en hoe ze hun advies kunnen afstemmen op wat er tot dan toe is geleerd. Het algoritme is uniek omdat geen van beide agenten een expert is; elk is vrij om als student-leraar op te treden om meer informatie te vragen en aan te bieden. De onderzoekers presenteren hun werk deze week op de AAAI Conference on Artificial Intelligence in Hawaii.

Co-auteurs op het papier, die een eervolle vermelding kreeg voor beste studentenpaper bij AAAI, zijn Jonathan Hoe, een professor in de afdeling luchtvaart en ruimtevaart van het MIT; Shayegan Omidshafiei, een voormalig MIT-afgestudeerde student nu bij Alphabet's DeepMind; Dong-ki Kim van MIT; Miao Liu, Gerard Tesauro, Matthijs Riemer, en Murray Campbell van IBM; en Christopher Amato van de Northeastern University.

"Dit idee om acties te bieden om het leren van de student het meest te verbeteren, in plaats van hem te vertellen wat hij moet doen, is potentieel behoorlijk krachtig, " zegt Matthew E. Taylor, een onderzoeksdirecteur bij Borealis AI, de onderzoeksafdeling van de Royal Bank of Canada, die niet bij het onderzoek betrokken was. "Hoewel de paper zich richt op relatief eenvoudige scenario's, Ik geloof dat het student/leraar-raamwerk kan worden opgeschaald en nuttig kan zijn in videogames voor meerdere spelers zoals Dota 2, robot voetbal, of rampherstelscenario's."

Voor nu, de pro's hebben nog steeds een voorsprong in Dota2, en andere virtuele spellen die teamwork en snelle, Strategisch denken. (Hoewel de AI-onderzoeksafdeling van Alphabet, DeepMind, maakte onlangs nieuws na het verslaan van een professionele speler in het real-time strategiespel, Starcraft.) Maar naarmate machines beter worden in het manoeuvreren in dynamische omgevingen, ze zijn misschien binnenkort klaar voor echte taken, zoals het beheren van het verkeer in een grote stad of het coördineren van zoek- en reddingsteams op de grond en in de lucht.

"Machines missen de gezond verstand kennis die we als kinderen ontwikkelen, " zegt Liu, een voormalig MIT-postdoc nu bij het MIT-IBM-lab. "Daarom moeten ze miljoenen videoframes bekijken, en veel rekentijd besteden, een spel goed leren spelen. Zelfs dan, ze missen efficiënte manieren om hun kennis over te dragen aan het team, of generaliseer hun vaardigheden naar een nieuw spel. Als we robots kunnen trainen om van anderen te leren, en hun leren generaliseren naar andere taken, kunnen we hun interacties met elkaar beter gaan coördineren, en met mensen."

Het belangrijkste inzicht van het MIT-IBM-team was dat een team dat verdeelt en overwint om een ​​nieuwe taak te leren - in dit geval manoeuvreren naar tegenovergestelde uiteinden van een kamer en tegelijkertijd de muur aanraken - zal sneller leren.

Hun leeralgoritme wisselt tussen twee fasen. In de eerste, zowel student als docent beslissen bij elke respectievelijke stap of ze vragen om, of geven, advies gebaseerd op hun vertrouwen dat de volgende stap, of het advies dat ze gaan geven, zal hen dichter bij hun doel brengen. Dus, de student vraagt ​​alleen om advies, en de leraar geeft het alleen, wanneer de toegevoegde informatie hun prestaties waarschijnlijk zal verbeteren. Met elke stap, de agenten werken hun respectieve taakbeleid bij en het proces gaat door totdat ze hun doel hebben bereikt of geen tijd meer hebben.

Bij elke iteratie, het algoritme registreert de beslissingen van de student, het advies van de leraar, en hun leervoortgang zoals gemeten aan de hand van de eindscore van het spel. In de tweede fase, een diepe versterkende leertechniek gebruikt de eerder geregistreerde onderwijsgegevens om beide adviesbeleid bij te werken. "Met elke update wordt de leraar beter in het geven van het juiste advies op het juiste moment, " zegt Kim, een afgestudeerde student aan het MIT.

In een vervolgpaper, te bespreken in een workshop bij AAAI, de onderzoekers verbeteren het vermogen van het algoritme om bij te houden hoe goed de agenten de onderliggende taak leren - in dit geval, een enorme klus - om het vermogen van de agenten om advies te geven en te ontvangen te verbeteren. Het is weer een stap die het team dichter bij zijn doel op langere termijn brengt:deelname aan de RoboCup. een jaarlijkse robotica-competitie gestart door academische AI-onderzoekers.

"We zouden moeten opschalen naar elf agenten voordat we een potje voetbal kunnen spelen. " zegt Tesauro, een IBM-onderzoeker die het eerste AI-programma ontwikkelde om het spel backgammon onder de knie te krijgen. "Het zal wat meer werk vergen, maar we hebben goede hoop."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.