Wetenschap
Krediet:CC0 Publiek Domein
Een onderzoeksteam onder leiding van prof. LI Huiyun van de Shenzhen Institutes of Advanced Technology (SIAT) van de Chinese Academie van Wetenschappen introduceerde een eenvoudig DRL-algoritme (Deep Reinforcement Learning) met m-out-of-n bootstrap-techniek en aggregeerde meerdere diepe deterministische beleidsgradiënt (DDPG) algoritmestructuren.
Genoemd "bootstrapped geaggregeerde multi-DDPG" (BAMDDPG), het nieuwe algoritme versnelde het trainingsproces en verhoogde de prestaties op het gebied van intelligent kunstmatig onderzoek.
De onderzoekers testten hun algoritme op een 2D-robot en een open racewagensimulator (TORCS). De experimentresultaten van het 2D-robotarmspel toonden aan dat de beloning die werd verkregen door het geaggregeerde beleid 10%-50% beter was dan die verkregen door subbeleid, en experimentresultaten op de TORCS toonden aan dat het nieuwe algoritme succesvol controlebeleid kon leren met 56,7% minder trainingstijd.
DDPG-algoritme dat over een continue actieruimte werkt, heeft veel aandacht getrokken voor versterkend leren. Echter, de verkenningsstrategie door middel van dynamisch programmeren binnen de Bayesiaanse geloofstoestandsruimte is zelfs voor eenvoudige systemen nogal inefficiënt. Dit resulteert meestal in het mislukken van de standaard bootstrap bij het leren van een optimaal beleid.
Het voorgestelde algoritme gebruikt de gecentraliseerde buffer voor het opnieuw afspelen van ervaringen om de efficiëntie van de verkenning te verbeteren. M-out-of-n bootstrap met willekeurige initialisatie produceert redelijke onzekerheidsschattingen tegen lage rekenkosten, helpen bij de convergentie van de opleiding. De voorgestelde bootstrapped en geaggregeerde DDPG kan de leertijd verkorten.
BAMDDPG stelt elke agent in staat om ervaringen van andere agenten te gebruiken. Dit maakt de training van subbeleid van BAMDDPG efficiënter, aangezien elke agent een bredere visie en meer informatie over de omgeving bezit.
Deze methode is effectief voor de sequentiële en iteratieve trainingsgegevens, waar de gegevens een lange-staartdistributie vertonen, in plaats van de normverdeling die wordt geïmpliceerd door de onafhankelijke identiek verdeelde gegevensaanname. Het kan het optimale beleid leren met veel minder trainingstijd voor taken met een continue ruimte van acties en staten.
De studie, getiteld "Deep Ensemble Reinforcement Learning met meerdere diepe deterministische beleidsgradiëntalgoritmen, " werd gepubliceerd in Hindi .
Op klei gebaseerde antimicrobiële verpakking houdt voedsel vers
Wetenschappers ontwikkelen onzichtbare anti-namaaketiketten
Technologie verhoogt de output van microfluïdische onderzoeksgegevens 100-voudig
De geheimen achter een griezelige fotografische techniek
Nieuw model voorspelt veranderingen in hout
Naar een beter begrip van nepnieuws
De kosten van berekening
Weet u waarom en hoe u wachtwoorden vergeet?
Wat zijn enkele materialen die ik zou kunnen gebruiken om plantencellen te maken?
Procentuele percentages op een frequentietabel
Neurotoxische cyanotoxinen die veel voorkomen in zoetwatersystemen in Oost-Australië, studie toont
Ontwerpen van flexibele en rekbare elektronische systemen met één kristal
Team zet grote stap richting bedrukte anisotrope magneten
Wetenschap © https://nl.scienceaq.com