Wetenschap
Gegeven een invoerbeeld zoals bovenaan weergegeven, de onderzoekers stellen een nieuwe methode voor om subroutines te leren, kortetermijnbeleid dat coherent gedrag vertoont (zoals naar links een kamer ingaan), en voorschotten, welke subroutines kunnen waar worden aangeroepen. Krediet:Kumar, Gupta &Malik.
Onderzoekers van UC Berkeley en Facebook AI Research hebben onlangs een nieuwe aanpak voorgesteld die de navigatievaardigheden van machine learning-modellen kan verbeteren. hun methode, gepresenteerd in een paper dat vooraf is gepubliceerd op arXiv, stelt modellen in staat om subroutines voor visuo-motornavigatie te verwerven door een reeks video's te verwerken.
"Elke ochtend, wanneer u besluit een kopje koffie uit de keuken te halen, denk je eraan om door de gang te gaan, links de gang in en dan rechts de kamer in, " schreven de onderzoekers in hun paper. "In plaats van de exacte spierkoppels te bepalen, je plant op dit hogere abstractieniveau door deze herbruikbare visuo-motorische subroutines op een lager niveau samen te stellen om je doel te bereiken."
Deze "visuo-motorische subroutines" of "hiërarchische abstracties" die mensen in hun geest creëren, helpen hen uiteindelijk om effectief te bewegen in hun omgeving. Het reproduceren van een soortgelijk mechanisme in computationele agenten zou dus hun navigatie- en planningsvaardigheden aanzienlijk kunnen verbeteren.
Benaderingen voor het trainen van modellen op deze hiërarchische abstracties zijn tot nu toe in twee hoofdcategorieën gevallen:handontwerpmethoden (d.w.z. klassieke planning) en versterkingsleertechnieken. Beide soorten benaderingen, echter, aanzienlijke beperkingen hebben. Klassieke planningsstrategieën zijn vaak niet optimaal, terwijl bekrachtigingsleermethoden onstabiel kunnen zijn, en duur om te ontwikkelen en te trainen.
In hun studie hebben de onderzoekers van UC Berkeley en Facebook introduceerden een alternatief paradigma waarmee modellen hiërarchische abstracties kunnen verwerven door passieve first-person observatiegegevens (d.w.z. video's) te analyseren. Deze video's zijn gelabeld met acties van agenten, die uiteindelijk een robot kan helpen om door zijn omgeving te navigeren.
"We gebruiken een omgekeerd model dat is getraind op kleine hoeveelheden interactiegegevens om de passieve first person-video's pseudo-label te geven met acties van agenten, "De onderzoekers legden in hun paper uit. "Visuo-motorische subroutines worden verkregen uit deze pseudo-gelabelde video's door een latent, intentie-geconditioneerd beleid te leren dat de afgeleide pseudo-acties voorspelt uit de overeenkomstige beeldobservaties."
De onderzoekers evalueerden hun aanpak en toonden aan dat het de navigatiemogelijkheden van een agent aanzienlijk kan verbeteren. In hun testen, hun methode heeft met succes de verwerving van een verscheidenheid aan visuo-motorische subroutines van passieve first-person video's mogelijk gemaakt.
"We demonstreren het nut van onze verworven visuo-motorische subroutines door ze te gebruiken zoals ze zijn voor verkenning en als subbeleid in een hiërarchisch RL-raamwerk voor het bereiken van puntdoelen en semantische doelen, " schreven de onderzoekers. "We demonstreren ook het gedrag van onze subroutines in de echte wereld, door ze in te zetten op een echt robotplatform."
De door de onderzoekers voorgestelde aanpak leverde opmerkelijke prestaties op alle door de onderzoekers beoordeelde statistieken. In aanvulling, het bleek beter te presteren dan de allernieuwste, op leren gebaseerde technieken die waren getraind op aanzienlijk grotere interactiemonsters, het genereren van trajecten die de omgeving grondiger omvatten.
Bovendien, terwijl de nieuwe aanpak hiërarchische abstracties kreeg van in totaal 45, 000 interacties met de omgeving, de state-of-the-art technieken waarmee het werd vergeleken behaalden minder bevredigende resultaten na maximaal 10 miljoen interacties. De methode van de onderzoekers presteerde ook beter dan handgemaakte baselines die speciaal waren ontworpen om door de omgeving te navigeren en obstakels te vermijden.
"Succesvol leren van first-person video's stelde de agent in staat coherente trajecten uit te voeren, ook al had het alleen maar willekeurige acties uitgevoerd, " schreven de onderzoekers. "Het leerde ook met succes de voorkeur voor voorwaartse acties in navigatie en het idee van het vermijden van obstakels, wat leidt tot een hoge maximale afstand en een laag aanvaringspercentage."
De studie die door dit team van onderzoekers is uitgevoerd, introduceert een levensvatbaar en zeer effectief alternatief voor de huidige methoden voor het trainen van AI-agenten op navigatiesubroutines. In de toekomst, hun aanpak zou de ontwikkeling van robots met meer geavanceerde plannings- en navigatievaardigheden kunnen helpen.
© 2019 Wetenschap X Netwerk
Wetenschap © https://nl.scienceaq.com