science >> Wetenschap >  >> Elektronica

Robots gebruiken nieuwe AI-tool om alle mogelijkheden te evalueren voordat ze beslissingen nemen

Brendan Englot van het Stevens Institute of Technology zal een nieuwe variant van een klassieke kunstmatige-intelligentietool gebruiken om robots te creëren die de risico's die gepaard gaan met het voltooien van de gewenste taak kunnen voorspellen en beheren. Krediet:Stevens Institute of Technology

Net als mensen, wanneer robots een beslissing moeten nemen, zijn er vaak veel opties en honderden mogelijke uitkomsten. Robots hebben een handvol van deze uitkomsten kunnen simuleren om erachter te komen welke actie het meest waarschijnlijk tot succes zal leiden. Maar wat als een van de andere opties even veel kans van slagen had - en veiliger?

Het Office of Naval Research heeft Brendan Englot toegekend, een MIT-opgeleide werktuigbouwkundig ingenieur aan het Stevens Institute of Technology, een Young Investigator Award 2020 van $ 508, 693 om gebruik te maken van een nieuwe variant van een klassieke tool voor kunstmatige intelligentie waarmee robots de vele mogelijke uitkomsten van hun acties kunnen voorspellen, en hoe groot de kans is dat ze zich voordoen. Het raamwerk stelt robots in staat om erachter te komen welke optie de beste manier is om een ​​doel te bereiken, door te begrijpen welke opties het veiligst zijn, meest efficiënt - en met de minste kans op falen.

"Als de snelste manier voor een robot om een ​​taak te voltooien is door op de rand van een klif te lopen, dat is veiligheid opofferen voor snelheid, " zei Englot, wie zal als een van de eersten de tool gebruiken, distributieversterking leren, robots te trainen. "We willen niet dat de robot van de rand van die klif valt, dus geven we ze de tools om de risico's die gepaard gaan met het voltooien van de gewenste taak te voorspellen en te beheersen."

Voor jaren, versterkingsleren is gebruikt om robots te trainen om autonoom in het water te navigeren, land en lucht. Maar die AI-tool heeft beperkingen, omdat het beslissingen neemt op basis van een enkele verwachte uitkomst voor elke beschikbare actie, terwijl er in feite vaak veel andere mogelijke uitkomsten zijn. Englot gebruikt distributieversterkingsleren, een AI-algoritme dat een robot kan gebruiken om alle mogelijke uitkomsten te evalueren, voorspel de kans dat elke actie slaagt en kies de meest geschikte optie die waarschijnlijk zal slagen terwijl een robot veilig blijft.

Voordat hij zijn algoritme in een echte robot toepast, Englots eerste missie is om het algoritme te perfectioneren. Englot en zijn team creëren een aantal besluitvormingssituaties om hun algoritme te testen. En ze wenden zich vaak tot een van de favoriete speelvelden van het veld:Atari-spellen.

Bijvoorbeeld, als je Pacman speelt, jij bent het algoritme dat bepaalt hoe Pacman zich gedraagt. Je doel is om alle stippen in het doolhof te krijgen en als je kunt, neem wat fruit. Maar er zweven spoken rond die je kunnen doden. Elke seconde, je wordt gedwongen een beslissing te nemen. Ga je rechtdoor, links of rechts? Welk pad levert je de meeste stippen en punten op en houdt je ook uit de buurt van de geesten?

Englot's AI-algoritme, met behulp van distributieversterking leren, zal de plaats innemen van een menselijke speler, simuleren van elke mogelijke beweging om veilig door het landschap te navigeren.

Dus hoe beloon je een robot? Englot en zijn team zullen punten toewijzen aan verschillende uitkomsten, d.w.z., als het van een klif valt, de robot krijgt -100 punten. Als het langzamer gaat, maar veiliger optie, het kan -1 punt krijgen voor elke stap op de omweg. Maar als het met succes het doel bereikt, het kan +50 worden.

"Een van onze secundaire doelen is om te zien hoe beloningssignalen kunnen worden ontworpen om een ​​positieve invloed te hebben op hoe een robot beslissingen neemt en kan worden getraind, " zei Englot. "We hopen dat de technieken die in dit project zijn ontwikkeld uiteindelijk kunnen worden gebruikt voor nog complexere AI, zoals het trainen van onderwaterrobots om veilig te navigeren te midden van wisselende getijden, stromingen, en andere complexe omgevingsfactoren."