science >> Wetenschap >  >> Elektronica

Nieuwe AI ziet als een mens, de lege plekken invullen

Computerwetenschappers van de Universiteit van Texas in Austin hebben een kunstmatige-intelligentieagent geleerd hoe hij iets moet doen wat normaal gesproken alleen mensen kunnen doen:een paar snelle glimpen opvangen en de hele omgeving afleiden. Credit:Jenna Luecke/Universiteit van Texas in Austin.

Computerwetenschappers van de Universiteit van Texas in Austin hebben een kunstmatige intelligentie-agent geleerd hoe hij iets moet doen wat normaal alleen mensen kunnen doen:een paar snelle glimpen opvangen en de hele omgeving afleiden, een vaardigheid die nodig is voor de ontwikkeling van effectieve zoek- en reddingsrobots die op een dag de effectiviteit van gevaarlijke missies kunnen verbeteren. Het team, onder leiding van professor Kristen Grauman, doctoraat kandidaat Santhosh Ramakrishnan en voormalig Ph.D. kandidaat Dinesh Jayaraman (nu aan de University of California, Berkeley) publiceerden hun resultaten vandaag in het tijdschrift Wetenschap Robotica .

De meeste AI-agenten - computersystemen die robots of andere machines van intelligentie kunnen voorzien - zijn getraind voor zeer specifieke taken - zoals het herkennen van een object of het schatten van het volume ervan - in een omgeving die ze eerder hebben meegemaakt, als een fabriek. Maar het middel dat is ontwikkeld door Grauman en Ramakrishnan is voor algemeen gebruik, het verzamelen van visuele informatie die vervolgens kan worden gebruikt voor een breed scala aan taken.

"We willen een agent die over het algemeen is uitgerust om omgevingen te betreden en klaar is voor nieuwe waarnemingstaken wanneer deze zich voordoen, "Zei Grauman. "Het gedraagt ​​zich op een manier die veelzijdig is en in staat is om verschillende taken uit te voeren, omdat het nuttige patronen over de visuele wereld heeft geleerd."

De wetenschappers gebruikten deep learning, een soort machine learning geïnspireerd door de neurale netwerken van de hersenen, om hun agent te trainen op duizenden 360-graden afbeeldingen van verschillende omgevingen.

Nutsvoorzieningen, wanneer gepresenteerd met een scène die hij nog nooit eerder heeft gezien, de agent gebruikt zijn ervaring om een ​​paar glimpen te kiezen - zoals een toerist die midden in een kathedraal staat en een paar snapshots in verschillende richtingen maakt - die samen minder dan 20 procent van de volledige scène uitmaken. Wat dit systeem zo effectief maakt, is dat het niet alleen foto's maakt in willekeurige richtingen, maar na elke glimp, door de volgende opname te kiezen die wordt voorspeld, wordt de meest nieuwe informatie over de hele scène toegevoegd. Dit is net alsof je in een supermarkt bent waar je nog nooit eerder was geweest, en je zag appels, je zou verwachten sinaasappels in de buurt te vinden, maar om de melk te vinden, je zou de andere kant op kunnen kijken. Op basis van glimpen, de agent concludeert wat hij zou hebben gezien als hij in alle andere richtingen had gekeken, het reconstrueren van een volledig 360-graden beeld van zijn omgeving.

Een nieuwe AI-agent, ontwikkeld door onderzoekers van de Universiteit van Texas in Austin, werpt een paar 'glimpen' van zijn omgeving, die minder dan 20 procent van het volledige 360-gradenbeeld vertegenwoordigen, en leidt de rest van de hele omgeving af. Wat dit systeem zo effectief maakt, is dat het niet alleen foto's maakt in willekeurige richtingen, maar na elke glimp, door de volgende opname te kiezen die wordt voorspeld, wordt de meest nieuwe informatie over de hele scène toegevoegd. Credit:David Steadman/Santhosh Ramakrishnan/Universiteit van Texas in Austin

"Net zoals je eerdere informatie binnenbrengt over de regelmatigheden die bestaan ​​in eerder ervaren omgevingen - zoals alle supermarkten waar je ooit bent geweest - zoekt deze agent op een niet-uitputtende manier, "Zei Grauman. "Het leert intelligente gissingen te maken over waar visuele informatie moet worden verzameld om te slagen in waarnemingstaken."

Een van de belangrijkste uitdagingen die de wetenschappers zichzelf stelden, was het ontwerpen van een agent die onder strakke tijdsdruk kan werken. Dit zou van cruciaal belang zijn in een zoek- en reddingstoepassing. Bijvoorbeeld, in een brandend gebouw zou een robot worden opgeroepen om mensen snel te lokaliseren, vlammen en gevaarlijke materialen en geef die informatie door aan brandweerlieden.

Een video van actieve observatie voltooiing van onbekende omgevingen. Krediet:Ramakrishnan et al., Wetenschap. Robot. 4, eaaw6326 (2019)

Voor nu, de nieuwe agent werkt als een persoon die op één plek staat, met de mogelijkheid om een ​​camera in elke richting te richten, maar niet in staat om naar een nieuwe positie te gaan. Of, gelijkwaardig, de agent kan staren naar een object dat het vasthoudt en beslissen hoe het object te draaien om een ​​andere kant ervan te inspecteren. Volgende, de onderzoekers ontwikkelen het systeem verder om in een volledig mobiele robot te werken.

Een video met voorbeelden van walkthroughs van de gereconstrueerde omgevingen vanuit het egocentrische gezichtspunt van het computervisiesysteem. Krediet:Ramakrishnan et al., Wetenschap. Robot. 4, eaaw6326 (2019)

Met behulp van de supercomputers van het Texas Advanced Computing Center en de afdeling Computerwetenschappen van de UT Austin, het duurde ongeveer een dag om hun agent te trainen met behulp van een kunstmatige-intelligentiebenadering die versterkingsleren wordt genoemd. Het team, onder leiding van Ramakrishnan, een methode ontwikkeld om de training te versnellen:het bouwen van een tweede agent, een sidekick genoemd, om de hoofdagent te helpen.

"Het gebruik van extra informatie die puur tijdens de training aanwezig is, helpt de [primaire] agent sneller te leren, ' zei Ramakrishnan.