Wetenschap
Krediet:CC0 Publiek Domein
Een onderzoeksteam onder leiding van prof. LI Huiyun van de Shenzhen Institutes of Advanced Technology (SIAT) van de Chinese Academie van Wetenschappen introduceerde een eenvoudig DRL-algoritme (Deep Reinforcement Learning) met m-out-of-n bootstrap-techniek en aggregeerde meerdere diepe deterministische beleidsgradiënt (DDPG) algoritmestructuren.
Genoemd "bootstrapped geaggregeerde multi-DDPG" (BAMDDPG), het nieuwe algoritme versnelde het trainingsproces en verhoogde de prestaties op het gebied van intelligent kunstmatig onderzoek.
De onderzoekers testten hun algoritme op een 2D-robot en een open racewagensimulator (TORCS). De experimentresultaten van het 2D-robotarmspel toonden aan dat de beloning die werd verkregen door het geaggregeerde beleid 10%-50% beter was dan die verkregen door subbeleid, en experimentresultaten op de TORCS toonden aan dat het nieuwe algoritme succesvol controlebeleid kon leren met 56,7% minder trainingstijd.
DDPG-algoritme dat over een continue actieruimte werkt, heeft veel aandacht getrokken voor versterkend leren. Echter, de verkenningsstrategie door middel van dynamisch programmeren binnen de Bayesiaanse geloofstoestandsruimte is zelfs voor eenvoudige systemen nogal inefficiënt. Dit resulteert meestal in het mislukken van de standaard bootstrap bij het leren van een optimaal beleid.
Het voorgestelde algoritme gebruikt de gecentraliseerde buffer voor het opnieuw afspelen van ervaringen om de efficiëntie van de verkenning te verbeteren. M-out-of-n bootstrap met willekeurige initialisatie produceert redelijke onzekerheidsschattingen tegen lage rekenkosten, helpen bij de convergentie van de opleiding. De voorgestelde bootstrapped en geaggregeerde DDPG kan de leertijd verkorten.
BAMDDPG stelt elke agent in staat om ervaringen van andere agenten te gebruiken. Dit maakt de training van subbeleid van BAMDDPG efficiënter, aangezien elke agent een bredere visie en meer informatie over de omgeving bezit.
Deze methode is effectief voor de sequentiële en iteratieve trainingsgegevens, waar de gegevens een lange-staartdistributie vertonen, in plaats van de normverdeling die wordt geïmpliceerd door de onafhankelijke identiek verdeelde gegevensaanname. Het kan het optimale beleid leren met veel minder trainingstijd voor taken met een continue ruimte van acties en staten.
De studie, getiteld "Deep Ensemble Reinforcement Learning met meerdere diepe deterministische beleidsgradiëntalgoritmen, " werd gepubliceerd in Hindi .
Wetenschap © https://nl.scienceaq.com