science >> Wetenschap >  >> Elektronica

Focus op een versterkend leeralgoritme dat kan leren van fouten

Krediet:OpenAI

Recent nieuws van de OpenAI-mensen gaat over een bonustrio. Ze brengen nieuwe Gym-omgevingen uit - een reeks gesimuleerde robotomgevingen op basis van echte robotplatforms - inclusief een Shadow-hand en een Fetch-onderzoeksrobot, zei IEEE-spectrum .

Naast die gereedschapskist, ze brengen een open source-versie van Hindsight Experience Replay (HER) uit. Zoals de naam al doet vermoeden, het helpt robots achteraf te leren, voor op doelen gebaseerde robottaken.

Tenslotte, ze hebben een reeks verzoeken voor robotica-onderzoek vrijgegeven. "Als je een ambitieus type bent, " zei Evan Ackerman in IEEE-spectrum , "OpenAI heeft ook een reeks verzoeken voor HER-gerelateerd onderzoek geplaatst."

"Hoewel HER een veelbelovende manier is om complexe, doelgerichte taken te leren met weinig beloningen, zoals de robotica-omgevingen die we hier voorstellen, er is nog veel ruimte voor verbetering, ", blogden ze. "Vergelijkbaar met onze onlangs gepubliceerde Requests for Research 2.0, we hebben een paar ideeën over manieren om HER specifiek te verbeteren, en versterkend leren in het algemeen."

OpenAI is een AI-onderzoeksbureau. Ze publiceren op machine learning-conferenties en hun blogposts communiceren over hun onderzoek.

Elon Musk is mede-oprichter. Het wordt gesponsord door particulieren en bedrijven, en ze hebben tot doel 'het pad naar veilige kunstmatige algemene intelligentie' te ontdekken en uit te voeren.

Een OpenAI-video die laat zien wat ze hebben bereikt in het gedeelte Gym-omgevingen, werd op 26 februari gepubliceerd.

Ze tonen de verschillende uitgevoerde taken. Een ShadowHand-robot manipuleert een object (toont een hand die manipuleert, inclusief buigende vingers, het alfabetblok van een kind, een eivormig voorwerp, en vingers door een stokje halen). Ze introduceren ook een robot "nudge" robotmechanisme dat zowel een puck kan schuiven als een kleine bal kan pakken en optillen

specifiek, dit zijn de gevarieerde prestaties die worden getoond:ShadowHand moet met zijn duim en een geselecteerde vinger reiken totdat ze elkaar ontmoeten op een gewenste doelpositie boven de handpalm. ShadowHand moet een blok manipuleren totdat het een gewenste doelpositie en rotatie bereikt. ShadowHand moet een ei manipuleren totdat het een gewenste doelpositie en rotatie bereikt. ShadowHand moet een pen manipuleren totdat deze een gewenste doelpositie en rotatie bereikt.

Globaal genomen, "de nieuwste omgevingen simuleren een Fetch-robotarm om dingen rond te duwen, en een ShadowHand om dingen vast te pakken en te manipuleren met robotvingers, " zei Katyanna Quach in Het register .

Vooral het aanbod van OpenAI HER is interessant; training en versterking krijgt een heroverweging. Met HER kan een agent leren van fouten. Zoals Ackerman schreef, HAAR "herformuleert mislukkingen als successen om robots te helpen meer als mensen te leren."

Jackie Snow binnen MIT Technology Review merkte op dat "Het doet dat door te kijken hoe elke poging tot één taak kan worden toegepast op andere."

sneeuw heeft toegevoegd, "HAAR geeft robots geen beloningen voor het uitvoeren van een stap in een taak - het deelt ze alleen uit als het hele ding goed wordt gedaan."

Mislukkingen herformuleren als successen? Ackerman gaf deze uitleg:"Om te begrijpen hoe HAAR werkt, stel je voor dat je aan slag bent in een potje honkbal. Je doel is om een ​​homerun te slaan. Op de eerste worp, je slaat een bal die fout gaat. ...je hebt ook precies geleerd hoe je een foutbal moet slaan... je besluit toch te leren van wat je net hebt gedaan, in wezen door te zeggen, 'Je weet wel, als ik een foutbal had willen slaan, dat zou perfect zijn geweest!'"

Hoe goed is de HER-implementatie? "Onze resultaten laten zien dat HER succesvol beleid kan leren voor de meeste nieuwe robotica-problemen van slechts schaarse beloningen."

Kinderen die blinddoekspellen spelen, vertellen de speler vaak:"Je krijgt het warm, warmer." Sleutelwoorden bij het waarderen van hun onderzoek zijn schaarse en dichte beloningen.

"De meeste algoritmen voor het leren van versterking gebruiken 'dichte beloningen, ' legde Ackerman uit, "waar de robot koekjes van verschillende groottes krijgt, afhankelijk van hoe dicht het bij het voltooien van een taak komt... Spaarzame beloningen betekenen dat de robot slechts één koekje krijgt als het lukt, en dat is het:gemakkelijker te meten, makkelijker te programmeren, en gemakkelijker te implementeren."

© 2018 Tech Xplore