Wetenschap
MIT-onderzoekers hebben een manier bedacht om robots te helpen door omgevingen te navigeren, meer zoals mensen dat doen. Krediet:Massachusetts Institute of Technology
Wanneer je door een menigte beweegt om een einddoel te bereiken, mensen kunnen meestal veilig door de ruimte navigeren zonder al te veel na te denken. Ze kunnen leren van het gedrag van anderen en eventuele obstakels opmerken die ze moeten vermijden. Robots, anderzijds, worstelen met dergelijke navigatieconcepten.
MIT-onderzoekers hebben nu een manier bedacht om robots te helpen door omgevingen te navigeren, meer zoals mensen dat doen. Met hun nieuwe bewegingsplanningsmodel kunnen robots bepalen hoe ze een doel kunnen bereiken door de omgeving te verkennen, andere agenten observeren, en het benutten van wat ze eerder hebben geleerd in vergelijkbare situaties. Een paper waarin het model wordt beschreven, werd deze week gepresenteerd op de IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).
Populaire algoritmen voor bewegingsplanning zullen een boom met mogelijke beslissingen creëren die zich vertakt totdat het goede paden voor navigatie vindt. Een robot die door een kamer moet navigeren om bij een deur te komen, bijvoorbeeld, maakt een stapsgewijze zoekboom van mogelijke bewegingen en voert vervolgens het beste pad naar de deur uit, rekening houdend met verschillende beperkingen. een nadeel, echter, leren deze algoritmen zelden:Robots kunnen geen gebruik maken van informatie over hoe zij of andere agenten eerder in vergelijkbare omgevingen hebben gehandeld.
"Net als bij het schaken, deze beslissingen vertakken zich totdat [de robots] een goede manier hebben gevonden om te navigeren. Maar in tegenstelling tot schakers, [de robots] onderzoeken hoe de toekomst eruit ziet zonder veel te leren over hun omgeving en andere agenten, " zegt co-auteur Andrei Barbu, een onderzoeker bij MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) en het Center for Brains, geesten, en Machines (CBMM) binnen het McGovern Institute van MIT. "De duizendste keer dat ze door dezelfde menigte gaan, is net zo ingewikkeld als de eerste keer. Ze zijn altijd aan het verkennen, zelden observeren, en nooit gebruiken wat er in het verleden is gebeurd."
De onderzoekers ontwikkelden een model dat een planningsalgoritme combineert met een neuraal netwerk dat paden leert herkennen die tot het beste resultaat kunnen leiden, en gebruikt die kennis om de beweging van de robot in een omgeving te sturen.
In hun krant "Diepe sequentiële modellen voor op steekproeven gebaseerde planning, " de onderzoekers demonstreren de voordelen van hun model in twee settings:navigeren door uitdagende kamers met vallen en nauwe doorgangen, en navigeren door gebieden terwijl botsingen met andere agenten worden vermeden. Een veelbelovende real-world applicatie helpt autonome auto's bij het navigeren op kruispunten, waar ze snel moeten evalueren wat anderen zullen doen voordat ze opgaan in het verkeer. De onderzoekers streven momenteel naar dergelijke toepassingen via het Toyota-CSAIL Joint Research Center.
"Als mensen met de wereld omgaan, we een object zien waarmee we eerder interactie hebben gehad, of op een locatie zijn waar we eerder zijn geweest, zodat we weten hoe we gaan handelen, " zegt Yen-Ling Kuo, een doctoraat in CSAIL en eerste auteur op het papier. "Het idee achter dit werk is om aan de zoekruimte een machine learning-model toe te voegen dat uit ervaringen uit het verleden weet hoe de planning efficiënter kan worden gemaakt."
Boris Katz, een hoofdonderzoeker en hoofd van de InfoLab Group bij CSAIL, is ook co-auteur van het papier.
Uitruil van exploratie en exploitatie
Traditionele bewegingsplanners verkennen een omgeving door snel een boom van beslissingen uit te breiden die uiteindelijk een hele ruimte bedekt. De robot kijkt dan naar de boom om een manier te vinden om het doel te bereiken, zoals een deur. Het model van de onderzoekers, echter, biedt "een afweging tussen het verkennen van de wereld en het benutten van kennis uit het verleden, ' zegt Kuo.
Het leerproces begint met een paar voorbeelden. Een robot die het model gebruikt, wordt op een aantal manieren getraind om door vergelijkbare omgevingen te navigeren. Het neurale netwerk leert wat deze voorbeelden doet slagen door de omgeving rond de robot te interpreteren, zoals de vorm van de muren, de acties van andere agenten, en kenmerken van de doelen. Kortom, het model "leert dat wanneer je vastzit in een omgeving, en je ziet een deuropening, het is waarschijnlijk een goed idee om door de deur te gaan om eruit te komen, ' zegt Barbu.
Het model combineert het exploratiegedrag van eerdere methoden met deze geleerde informatie. De onderliggende planner, genaamd RRT*, is ontwikkeld door MIT-professoren Sertac Karaman en Emilio Frazzoli. (Het is een variant van een veelgebruikt bewegingsplanningsalgoritme dat bekend staat als Rapidly-exploring Random Trees, of RRT.) De planner maakt een zoekboom terwijl het neurale netwerk elke stap spiegelt en probabilistische voorspellingen doet over waar de robot vervolgens heen moet. Wanneer het netwerk een voorspelling doet met een hoge betrouwbaarheid, op basis van geleerde informatie, het leidt de robot op een nieuw pad. Als het netwerk niet veel vertrouwen heeft, het laat de robot in plaats daarvan de omgeving verkennen, als een traditionele planner.
Bijvoorbeeld, demonstreerden de onderzoekers het model in een simulatie die bekend staat als een "bug trap, " waarbij een 2D-robot moet ontsnappen uit een binnenkamer via een centraal smal kanaal en een locatie in een omringende grotere kamer moet bereiken. Blinde bondgenoten aan weerszijden van het kanaal kunnen robots laten vastlopen. In deze simulatie, de robot werd getraind op een paar voorbeelden van hoe te ontsnappen aan verschillende insectenvallen. Wanneer geconfronteerd met een nieuwe val, het herkent kenmerken van de val, ontsnapt, en blijft zoeken naar zijn doel in de grotere kamer. Het neurale netwerk helpt de robot de uitgang naar de val te vinden, identificeer de doodlopende wegen, en geeft de robot een gevoel van zijn omgeving, zodat hij het doel snel kan vinden.
Resultaten in de paper zijn gebaseerd op de kans dat na enige tijd een pad wordt gevonden, totale lengte van het pad dat een bepaald doel heeft bereikt, en hoe consistent de paden waren. In beide simulaties het model van de onderzoekers zette sneller veel kortere en consistente paden uit dan een traditionele planner.
Werken met meerdere agenten
In een ander experiment, de onderzoekers hebben het model getraind en getest in navigatieomgevingen met meerdere bewegende agenten, wat een nuttige test is voor zelfrijdende auto's, vooral het navigeren op kruispunten en rotondes. In de simulatie, meerdere agenten cirkelen om een obstakel. Een robotagent moet met succes om de andere agenten heen navigeren, vermijd botsingen, en een doellocatie bereiken, bijvoorbeeld een afslag op een rotonde.
"Situaties zoals rotondes zijn moeilijk, omdat ze redeneren vereisen over hoe anderen op uw acties zullen reageren, hoe je dan op die van hen zult reageren, wat ze hierna gaan doen, enzovoort, " zegt Barbu. "Je ontdekt uiteindelijk dat je eerste actie verkeerd was, omdat dit later tot een waarschijnlijk ongeval zal leiden. Dit probleem wordt exponentieel erger naarmate je met meer auto's te maken krijgt."
De resultaten geven aan dat het model van de onderzoekers voldoende informatie kan vastleggen over het toekomstige gedrag van de andere agenten (auto's) om het proces vroegtijdig af te breken, terwijl u nog steeds goede beslissingen neemt in de navigatie. Dit maakt het plannen efficiënter. Bovendien, ze hoefden het model slechts op een paar voorbeelden van rotondes te trainen met slechts een paar auto's. "De plannen die de robots maken, houden rekening met wat de andere auto's gaan doen, zoals ieder mens zou doen, ' zegt Barbu.
Het passeren van kruispunten of rotondes is een van de meest uitdagende scenario's voor autonome auto's. Dit werk zou auto's op een dag kunnen laten leren hoe mensen zich gedragen en hoe ze zich kunnen aanpassen aan bestuurders in verschillende omgevingen, volgens de onderzoekers. Dit is de focus van het werk van het Toyota-CSAIL Joint Research Centre.
"Niet iedereen gedraagt zich hetzelfde, maar mensen zijn erg stereotiep. Er zijn mensen die verlegen zijn, mensen die agressief zijn. Het model herkent dat snel en kan daarom efficiënt plannen, ' zegt Barbu.
Recenter, de onderzoekers hebben dit werk toegepast op robots met manipulatoren die voor even grote uitdagingen staan bij het bereiken van objecten in steeds veranderende omgevingen.
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com