science >> Wetenschap >  >> Elektronica

Wanneer kleine robot door je kamers gaat om de oranje portemonnee te vinden

Krediet:embodiedqa.org

hmm, Er was eens, we waren onder de indruk dat dit zoekfenomeen, Google genaamd, onmiddellijk vragen kon beantwoorden en dat is door woorden in een spatiebalk te typen. Mirabile dictu als je zou vragen waar Miani is, zou Google terugvuren, Bedoelde je Miami?

De vraag- en antwoordscène is met sprongen vooruit gegroeid en nu werken wetenschappers op een ander niveau waar intelligente systemen zien, plan, en beredeneer het antwoord.

Embodied Question Answering is de naam van een project en de titel van een paper over arXiv. De zes auteurs, met Georgia Institute of Technology en Facebook AI Research-affiliaties, beschrijven hun werk met een reeks AI-vaardigheden.

belichaamdQA, zoals dat heet, laat agenten navigeren door rijke 3D-omgevingen om vragen te beantwoorden. wil ridder, MIT Technology Review , verwees naar deze "speurtochtuitdaging".

Deze agenten moeten gezamenlijk taalbegrip leren, visueel redeneren, en doelgerichte navigatie om te slagen.

Waar het allemaal om draait:Een agent wordt op een willekeurige locatie in een 3D-omgeving voortgebracht. De agent krijgt een vraag ("Welke kleur heeft de auto?"). Om het antwoord te krijgen, de agent moet navigeren om de omgeving te verkennen, informatie verzamelen door middel van "first-person (egocentrische) visie, " en antwoord dan.

Het team ontwikkelde een dataset van vragen en antwoorden in House3D-omgevingen. (U kunt meer te weten komen over House3D, een virtuele 3D-omgeving, op GitHub).

Hun paper gaat dieper in op de vraagtypes en sjablonen in de EQA-dataset. locatie:Welke kamer? Welke kleur heeft het voorwerp? Wat is hierboven, onderstaand, naast, het object? Bestaan:Is er een object in de kamer? Hoeveel? Staat Object 1 dichter bij Object 2 dan Object 3?

De vragen testen vaardigheden:objectdetectie, scèneherkenning, tellen, ruimtelijk redeneren, kleurherkenning en logica.

Ook, de auteurs zeiden dat "EQA gemakkelijk kan worden uitgebreid met nieuwe elementaire bewerkingen, soorten vragen, en sjablonen indien nodig om de moeilijkheidsgraad van de taak te vergroten om bij de ontwikkeling te passen."

De auteurs benadrukten dat EQA geen statische dataset is. Liever, het is een test voor "een curriculum van capaciteiten dat we zouden willen bereiken in belichaamde communicerende agenten."

Waarom dit belangrijk is: Snel bedrijf merkte op dat dit Facebook- en Georgia Tech-project eigenlijk kunstmatige-intelligentiesystemen traint om natuurlijke taalvragen te ontleden en specifieke objecten te vinden.

Waarom dit belangrijk is, naar Will Knight in MIT Technology Review :"Stel je voor dat je een Roomba vraagt ​​om de slaapkamer te stofzuigen. Zelfs als de machine je stem zou kunnen verstaan ​​en zijn omgeving zou kunnen zien, het heeft geen idee wat een slaapkamer is, of waar er een te vinden is. Maar toekomstige thuisrobots kunnen AI-software gebruiken die zulke eenvoudige feiten over gewone huizen heeft geleerd door eerst veel virtuele huizen te verkennen."

Hoe hebben de onderzoekers het gedaan? Daniel Terdiman in Snel bedrijf schreef dat het team "verschillende soorten machine learning gebruikte om de bots te trainen om vragen over het virtuele huis te beantwoorden."

"Leren" is een belangrijk onderdeel van wat het team heeft bereikt. De agent leerde wat Knight 'een rudimentaire vorm van gezond verstand' noemde. Met vallen en opstaan, het ontdekte de beste plaatsen om het object in kwestie te zoeken. Kan zijn, bijvoorbeeld, de agent leert dat auto's meestal in de garage staan. Het kan zijn dat de garages aan de voor- of achterdeur liggen.

© 2018 Tech Xplore