science >> Wetenschap >  >> Elektronica

Een imitatieleerbenadering om robots te trainen zonder de noodzaak van echte menselijke demonstraties

Figuur waarin wordt uitgelegd hoe de door de onderzoekers voorgestelde leeraanpak werkt. Krediet:Bonardi, James &Davison.

De meeste mensen kunnen leren hoe ze een bepaalde taak moeten voltooien door te observeren dat een andere persoon deze slechts één keer uitvoert. Robots die zijn geprogrammeerd om te leren door mensen te imiteren, echter, moeten doorgaans worden getraind in een reeks menselijke demonstraties voordat ze het gewenste gedrag effectief kunnen reproduceren.

Onderzoekers waren onlangs in staat om robots nieuwe taken te leren uitvoeren door ze een enkele menselijke demonstratie te laten observeren, meta-leermethoden gebruiken. Echter, deze leertechnieken vereisen doorgaans gegevens uit de echte wereld die duur en moeilijk te verzamelen kunnen zijn.

Om deze uitdaging te overwinnen, een team van onderzoekers van het Imperial College London heeft een nieuwe aanpak ontwikkeld die one-shot imitatieleren in robots mogelijk maakt zonder dat er echte menselijke demonstraties nodig zijn. Hun aanpak, gepresenteerd in een paper dat vooraf is gepubliceerd op arXiv, maakt gebruik van algoritmen die bekend staan ​​als task-embedded control networks (TecNets), waarmee kunstmatige agenten kunnen leren hoe ze taken moeten voltooien vanuit een enkele of meerdere demonstraties, evenals kunstmatig gegenereerde trainingsgegevens.

"We laten zien dat met taakgeïntegreerde controlenetwerken, we kunnen controlebeleid afleiden door menselijke demonstraties in te bedden die een controlebeleid kunnen conditioneren en eenmalig imitatieleren kunnen bereiken, ' schrijven de onderzoekers in hun paper.

De aanpak van de onderzoekers vereist geen interactie met echte mensen tijdens de training van de robot. De methode gebruikt TechNets om controlebeleid af te leiden, het inbedden van menselijke demonstraties die een bepaald controlebeleid kunnen bepalen en uiteindelijk eenmalig imitatieleren mogelijk maken.

Om de noodzaak van echte menselijke demonstraties tijdens de training weg te nemen, de onderzoekers gebruikten een dataset van video's die menselijke demonstraties simuleerden, die ze hebben gegenereerd met behulp van PyRep, een onlangs uitgebrachte toolkit voor onderzoek naar robotleren. PyRep gebruiken, de onderzoekers modelleerden een mensachtige 3D-arm en deelden deze op in vormen om bewegingen te reproduceren die lijken op die waargenomen bij mensen.

Vervolgens maakten ze een dataset bestaande uit video's waarin deze gesimuleerde arm een ​​aantal taken uitvoerde en gebruikten deze om een ​​robotsysteem te trainen. uiteindelijk, de robot kon leren hoe hij een taak moest voltooien door deze simulatievideo's en een enkele menselijke demonstratie in de echte wereld te analyseren.

"Belangrijk, we gebruiken geen echte menselijke arm om demonstraties te geven tijdens trainingen, maar in plaats daarvan gebruik maken van domeinrandomisatie in een applicatie die nog niet eerder is gezien:sim-naar-echte overdracht op mensen, ' leggen de onderzoekers uit in hun paper.

Het team evalueerde de nieuwe one-shot learning-aanpak zowel in simulaties als in de echte wereld, gebruiken om een ​​robot te trainen om taken uit te voeren waarbij objecten worden geplaatst en geduwd. Opmerkelijk, hun leermethode behaalde resultaten die vergelijkbaar zijn met die behaald met een meer conventionele, op imitatie gebaseerde leermethode, hoewel het inhoudt dat een robot wordt getraind op kunstmatig gegenereerde video's, maar eerder echte menselijke demonstraties.

De onderzoekers schrijven, "We waren in staat om vergelijkbare prestaties te bereiken als een ultramoderne alternatieve methode die gebaseerd is op duizenden trainingsdemonstraties die in de echte wereld zijn verzameld, terwijl het ook robuust blijft voor visuele domeinverschuivingen, zoals wezenlijk verschillende achtergronden."

De aanpak die door dit team van onderzoekers is ontwikkeld, zou voor een aantal robots one-shot imitatieleren mogelijk maken zonder dat grote hoeveelheden echte menselijke demonstraties hoeven te worden verzameld. Dit kan veel moeite besparen, middelen en tijd voor degenen die robots proberen te trainen met behulp van imitatieleren. De onderzoekers zijn nu van plan om andere acties te onderzoeken waarop robots kunnen worden getraind met behulp van hun aanpak.

"We hopen verder onderzoek te doen naar de verscheidenheid aan menselijke acties die kunnen worden overgedragen van simulatie naar realiteit, ' schreven de onderzoekers in hun paper. 'Bijvoorbeeld, in dit werk, we hebben aangetoond dat een menselijke arm kan worden overgedragen, maar zou dezelfde methode werken vanaf demonstraties met inbegrip van de hele torso van een mens?"

© 2019 Wetenschap X Netwerk