science >> Wetenschap >  >> Elektronica

Een nieuwe benadering voor het modelleren van centrale patroongeneratoren (CPG's) bij het leren van versterking

Percelen die de basismodellen vergelijken (MLP, SCN, RNN, RCN) voor de 4 MuJoCo-omgevingen die in de paper worden gepresenteerd (Humanoid-v2, HalfCheetah-v2, Walker2d-v2, Zwemmer-v2). Krediet:Liu et al.

Centrale patroongeneratoren (CPG's) zijn biologische neurale circuits die gecoördineerde ritmische outputs kunnen produceren zonder ritmische inputs. CPG's zijn verantwoordelijk voor de meeste ritmische bewegingen die worden waargenomen in levende organismen, zoals wandelen, ademen of zwemmen.

Hulpmiddelen voor het effectief modelleren van ritmische outputs wanneer aritmische inputs worden gegeven, kunnen belangrijke toepassingen hebben op verschillende gebieden, inclusief neurowetenschappen, robotica en geneeskunde. Bij versterkend leren, de meeste bestaande netwerken die worden gebruikt om locomotieftaken te modelleren, zoals meerlagige perceptron (MLP) basismodellen, slagen er niet in om ritmische outputs te genereren bij afwezigheid van ritmische inputs.

Recente studies hebben het gebruik voorgesteld van architecturen die het beleid van een netwerk kunnen opsplitsen in lineaire en niet-lineaire componenten, zoals gestructureerde controlenetten (SCN's), die in verschillende omgevingen beter presteerden dan MLP's. Een SCN omvat een lineair model voor lokale besturing en een niet-lineaire module voor globale besturing, waarvan de resultaten worden gecombineerd om de beleidsactie te produceren. Voortbouwend op eerder werk met terugkerende neurale netwerken (RNN's) en SCN's, een team van onderzoekers van de Stanford University heeft onlangs een nieuwe benadering bedacht om CPG's te modelleren bij versterkend leren.

"CPG's zijn biologische neurale circuits die ritmische output kunnen produceren in de afwezigheid van ritmische input, "Ademi Adeniji, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Bestaande benaderingen voor het modelleren van CPG's bij het leren van versterkingen omvatten de meerlaagse perceptron (MLP), een eenvoudige, volledig verbonden neuraal netwerk, en het gestructureerde controlenet (SCN), die aparte modules heeft voor lokale en globale besturing. Ons onderzoeksdoel was om deze basislijnen te verbeteren door het model eerdere waarnemingen te laten vastleggen, waardoor het minder vatbaar is voor fouten door invoerruis."

Screenshot van de HalfCheetah-omgeving. Krediet:Liu et al.

Het recurrent control net (RCN) ontwikkeld door Adeniji en zijn collega's neemt de architectuur van een SCN over, maar gebruikt een vanille RNN voor globale controle. Hierdoor kan het model lokale, globale en tijdsafhankelijke regeling.

"Net als SCN, onze RCN verdeelt de informatiestroom in lineaire en niet-lineaire modules, "Nathaniel Lee, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Intuïtief, de lineaire module, effectief een lineaire transformatie, leert lokale interacties, terwijl de niet-lineaire module globale interacties leert."

SCN-benaderingen gebruiken een MLP als hun niet-lineaire module, terwijl de door de onderzoekers bedachte RCN deze module vervangt door een RNN. Als resultaat, hun model krijgt een 'geheugen' van eerdere waarnemingen, gecodeerd door de verborgen staat van de RNN, die het vervolgens gebruikt om toekomstige acties te genereren.

De onderzoekers evalueerden hun aanpak op het OpenAI Gym-platform, een natuurkundige omgeving voor versterkend leren, evenals op multi-joint dynamics met contract (Mu-JoCo) taken. Hun RCN kwam overeen met of presteerde beter dan andere baseline-MLP's en SCN's in alle geteste omgevingen, effectief lokale en globale controle leren terwijl patronen uit eerdere sequenties worden verworven.

Screenshot van de Humanoid-omgeving. Krediet:Liu et al.

"CPG's zijn verantwoordelijk voor een groot aantal ritmische biologische patronen, "Jason Zhao, een andere onderzoeker die bij het onderzoek betrokken was, zei. "Het vermogen om CPG-gedrag te modelleren kan met succes worden toegepast op gebieden zoals geneeskunde en robotica. We hopen ook dat ons onderzoek de werkzaamheid van lokale / globale controle zal benadrukken, evenals terugkerende architecturen voor het modelleren van centrale patroongeneratie bij versterkingsleren."

De bevindingen verzameld door de onderzoekers bevestigen het potentieel van SCN-achtige structuren om CPG's te modelleren voor versterkend leren. Hun studie suggereert ook dat RNN's bijzonder effectief zijn voor het modelleren van locomotieftaken en dat het scheiden van lineaire en niet-lineaire besturingsmodules de prestaties van een model aanzienlijk kan verbeteren.

"Tot dusver, we hebben ons model alleen getraind met behulp van evolutionaire strategieën (ES), een off-gradient optimizer, " zei Vincent Liu, een van de bij het onderzoek betrokken onderzoekers. "In de toekomst, we zijn van plan om de prestaties ervan te onderzoeken bij het trainen met proximale beleidsoptimalisatie (PPO), een on-gradient optimizer. Aanvullend, vooruitgang in natuurlijke taalverwerking heeft aangetoond dat convolutionele neurale netwerken effectieve substituten zijn voor terugkerende neurale netwerken, zowel qua prestaties als rekenkracht. We zouden daarom kunnen overwegen om te experimenteren met een neurale netwerkarchitectuur met tijdvertraging, die 1-D convolutie toepast langs de tijdas van eerdere waarnemingen."

© 2019 Wetenschap X Netwerk