science >> Wetenschap >  >> Elektronica

Een algoritme om robots pre-grijpende manipulatiestrategieën te leren

Krediet:Berscheid, Meissner &Kröger.

Wanneer mensen hun hand uitstrekken om een ​​bepaald object te grijpen, ze moeten vaak rommel uit de weg ruimen om het te isoleren en ervoor te zorgen dat er voldoende ruimte is om het op te rapen. Hoewel mensen zich er niet altijd volledig van bewust zijn dat ze het doen, deze strategie, bekend als "pre-grijpende manipulatie, " stelt hen in staat om objecten efficiënter te grijpen.

In recente jaren, verschillende onderzoekers hebben geprobeerd menselijke manipulatiestrategieën in robots te reproduceren, toch hebben minder studies zich gericht op manipulatie vóór het grijpen. Met dit in gedachten, een team van onderzoekers van het Karlsruhe Institute of Technology (KIT) heeft onlangs een algoritme ontwikkeld dat kan worden gebruikt om robots te trainen in zowel grijp- als pre-grijpmanipulatiestrategieën. Deze nieuwe aanpak werd gepresenteerd in een paper dat vooraf was gepubliceerd op arXiv.

"Hoewel grijpen een goed begrepen taak is in robotica, gerichte pre-grijpmanipulatie is nog steeds een grote uitdaging, Lars Berscheid, een van de onderzoekers die het onderzoek heeft uitgevoerd, vertelde TechXplore. "Dit maakt het op dit moment erg moeilijk voor robots om objecten uit rommel of krappe ruimtes te grijpen. met de recente innovaties in machine- en robotleren, robots kunnen leren hoe ze verschillende taken kunnen oplossen door te interageren met hun omgeving. In dit onderzoek, we wilden een benadering toepassen die we in ons eerdere werk hebben gepresenteerd, niet alleen om te begrijpen, maar ook om manipulatie vooraf te begrijpen."

Krediet:Berscheid, Meissner &Kröger.

Wanneer een robot leert hoe hij een bepaalde taak moet voltooien, het moet in wezen uitzoeken hoe een probleem kan worden opgelost door de beloningen te maximaliseren. In hun studie hebben de onderzoekers concentreerden zich op een taak waarbij objecten uit een willekeurig gevulde bak werden gegrepen.

De robot is ongeveer 80 uur getraind om objecten vast te pakken, met behulp van input van een camera en feedback van de grijper. Toen het met succes een object in zijn robotgrijper hield, het kreeg een beloning. Het door Berscheid en zijn collega's ontwikkelde algoritme brengt de training van de robot nog een stap verder, waardoor het ook nuttig kan worden voor pre-grijpende manipulatiestrategieën, zoals schakelen of duwen.

"Het belangrijkste idee van ons werk was om de grijpacties uit te breiden door extra schuif- of duwbewegingen te introduceren, " legde Berscheid uit. "De robot kan dan beslissen welke actie in verschillende situaties moet worden toegepast. Het trainen van robots is in werkelijkheid erg lastig:ten eerste, het duurt lang, dus de training zelf moet worden geautomatiseerd en gecontroleerd, en ten tweede kunnen er veel onverwachte dingen gebeuren als de robot zijn omgeving verkent. Net als bij andere technieken in machine learning, het leren van robots wordt altijd beperkt door het dataverbruik. Met andere woorden, ons werk is verbonden met twee zeer uitdagende onderzoeksvragen:hoe kan een robot zo snel mogelijk leren - en welke taken kan een robot leren met behulp van de ontdekte inzichten?"

Krediet:Berscheid, Meissner &Kröger.

Zoals Berscheid verder uitlegt, een robot kan efficiënter leren als hij directe feedback krijgt na elke actie die hij uitvoert, omdat dit het probleem van schaarse beloningen overwint. Met andere woorden, hoe meer feedback aan een robot wordt gegeven (d.w.z. hoe meer beloningen hij ontvangt voor succesvolle acties), hoe sneller en effectiever het leert een bepaalde taak te voltooien.

"Dit klinkt makkelijk, maar is soms lastig te implementeren:bijvoorbeeld hoe definieer je de kwaliteit van een pre-grijpende manipulatie?" zei Berscheid.

De door de onderzoekers voorgestelde aanpak is gebaseerd op een eerdere studie die het gebruik van verschillen in grijpkansen voor en na een bepaalde actie onderzocht, scherpstellen op een klein gebied rond waar de actie wordt uitgevoerd. In hun nieuwe studie Berscheid en zijn collega's probeerden ook acties te ontdekken die een robot zo snel mogelijk zou moeten proberen te leren.

Krediet:Berscheid, Meissner &Kröger.

"Dit is het bekende probleem van exploratie bij het leren van robots, " legde Berscheid uit. "We definiëren een verkenningsstrategie die ofwel de zelfinformatie maximaliseert of de onzekerheid van acties minimaliseert en die zeer efficiënt kan worden berekend."

Het door de onderzoekers gepresenteerde algoritme stelt een robot in staat om de optimale houding te leren voor pre-grijpacties zoals klemmen of verschuiven, evenals hoe deze acties uit te voeren om de kans op succesvol grijpen te vergroten. Hun benadering maakt een bepaalde actie (d.w.z. verschuiven) afhankelijk van de andere (d.w.z. grijpen), wat uiteindelijk de noodzaak voor schaarse beloningen wegneemt en efficiënter leren mogelijk maakt.

De onderzoekers pasten hun algoritme toe op een Franka-robotarm en evalueerden vervolgens de prestaties ervan bij een taak waarbij objecten uit een bak worden opgepikt totdat deze helemaal leeg is. Ze trainden het systeem met 25, 000 verschillende greep en 2, 500 ploegendiensten. Hun bevindingen waren veelbelovend, waarbij de robotarm met succes beide objecten greep en vijlde waarmee hij bekend was en andere die hij nog nooit eerder was tegengekomen.

Krediet:Berscheid, Meissner &Kröger.

"Ik vind twee resultaten van ons werk bijzonder opwindend, ' zei Berscheid. 'Eerst, we denken dat dit werk echt het vermogen van robotleren laat zien. In plaats van te programmeren hoe iets moet, we vertellen de robot wat hij moet doen - en hij moet zelf uitzoeken hoe hij het moet doen. In dit verband, we waren in staat om de methoden die we hebben ontwikkeld om te grijpen toe te passen en te veralgemenen naar pre-grijpmanipulatie. Ten tweede en van meer praktisch belang, dit kan zeer nuttig zijn bij de automatisering van veel industriële taken, vooral voor binpicking, waar de robot de bak helemaal zelf moet kunnen legen."

In de toekomst, de door Berscheid en zijn collega's ontwikkelde aanpak kan worden toegepast op andere robotplatforms, het verbeteren van hun pre-grijp- en grijpmanipulatievaardigheden. De onderzoekers zijn nu van plan om verder onderzoek te doen naar andere onderzoeksvragen.

Bijvoorbeeld, tot nu toe stelt hun aanpak de Frank robotarm alleen in staat om objecten vast te pakken met een rechtopstaande hand, met behulp van zogenaamde 'vlakke grepen'. De onderzoekers willen hun algoritme uitbreiden om ook laterale grepen mogelijk te maken, door meer parameters in te voeren en aanvullende trainingsgegevens te gebruiken. Volgens Berscheid, de grootste uitdaging bij het proberen dit te bereiken, is ervoor te zorgen dat de robot zijwaartse grepen verwerft, terwijl het aantal grijppogingen constant wordt gehouden tijdens de trainingsfase.

"In aanvulling, het grijpen van objecten maakt vaak deel uit van een taak op hoog niveau, bijv. we willen het object op een specifieke positie plaatsen, ' zei Berscheid. 'Hoe kunnen we een onbekend object precies plaatsen? Ik denk dat het antwoord op deze vraag erg belangrijk is om zowel industriële als nieuwe toepassingen in servicerobotica aan te pakken. In ons project willen we de focus houden op real-world robotleren, het overbruggen van de kloof tussen speelgoedvoorbeelden in onderzoek en complexe real-world toepassingen."

© 2019 Wetenschap X Netwerk