science >> Wetenschap >  >> Elektronica

Kunstmatige intelligentie leren om zintuigen zoals zien en aanraken te verbinden

Krediet:CC0 Publiek Domein

In het boek van de Canadese auteur Margaret Atwood De blinde moordenaar , ze zegt dat "aanraking voor zicht komt, voor spraak. Het is de eerste taal en de laatste, en het vertelt altijd de waarheid."

Terwijl onze tastzin ons een kanaal geeft om de fysieke wereld te voelen, onze ogen helpen ons onmiddellijk het volledige beeld van deze tactiele signalen te begrijpen.

Robots die zijn geprogrammeerd om te zien of te voelen, kunnen deze signalen niet zo goed onderling uitwisselbaar gebruiken. Om deze sensorische kloof beter te overbruggen, onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) hebben een voorspellende kunstmatige intelligentie (AI) bedacht die kan leren zien door aan te raken, en leer voelen door te zien.

Het systeem van het team kan realistische tactiele signalen creëren van visuele input, en voorspellen welk object en welk deel direct wordt aangeraakt vanuit die tactiele invoer. Ze gebruikten een KUKA robotarm met een speciale tactiele sensor genaamd GelSight, ontworpen door een andere groep aan het MIT.

Met behulp van een eenvoudige webcamera, het team nam bijna 200 objecten op, zoals gereedschap, huishoudproducten, stoffen, en meer, meer dan 12 aangeraakt worden, 000 keer. Die 12 breken, 000 videoclips naar beneden in statische frames, het team stelde "VisGel, " een dataset van meer dan 3 miljoen visuele/tactiele gekoppelde afbeeldingen.

"Door naar de scène te kijken, ons model kan zich het gevoel voorstellen van het aanraken van een plat oppervlak of een scherpe rand, " zegt Yunzhu Li, CSAIL Ph.D. student en hoofdauteur van een nieuw artikel over het systeem. "Door blindelings rond te raken, ons model kan de interactie met de omgeving puur vanuit tactiele gevoelens voorspellen. Door deze twee zintuigen samen te brengen, kan de robot krachtiger worden en de gegevens die we nodig hebben voor taken met betrekking tot het manipuleren en grijpen van objecten verminderen."

Recent werk om robots uit te rusten met meer mensachtige fysieke zintuigen, zoals MIT's 2016-project waarbij deep learning wordt gebruikt om geluiden visueel aan te geven, of een model dat de reacties van objecten op fysieke krachten voorspelt, beide gebruiken grote datasets die niet beschikbaar zijn voor het begrijpen van interacties tussen zicht en aanraking.

De techniek van het team omzeilt dit door gebruik te maken van de VisGel-dataset, en iets dat generatieve adversariële netwerken (GAN's) wordt genoemd.

Yunzhu Li is een PhD-student aan het MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Krediet:Massachusetts Institute of Technology

GAN's gebruiken visuele of tactiele afbeeldingen om afbeeldingen in de andere modaliteit te genereren. Ze werken met behulp van een "generator" en een "discriminator" die met elkaar concurreren, waarbij de generator echt ogende afbeeldingen wil maken om de discriminator voor de gek te houden. Elke keer dat de discriminator de generator "vangt", het moet de interne motivering van de beslissing blootleggen, waardoor de generator zichzelf herhaaldelijk kan verbeteren.

Visie om aan te raken

Mensen kunnen afleiden hoe een object voelt door het te zien. Om machines deze kracht beter te geven, het systeem moest eerst de positie van de aanraking lokaliseren, en vervolgens informatie afleiden over de vorm en het gevoel van de regio.

De referentiebeelden - zonder enige interactie tussen robot en object - hielpen het systeem details over de objecten en de omgeving te coderen. Vervolgens, toen de robotarm in werking was, het model kan eenvoudig het huidige frame vergelijken met zijn referentiebeeld, en identificeer gemakkelijk de locatie en schaal van de aanraking.

Dit kan er ongeveer zo uitzien als het systeem een ​​afbeelding van een computermuis geven, en vervolgens het gebied "zien" waar het model voorspelt dat het object moet worden aangeraakt om het op te rapen - wat machines enorm zou kunnen helpen bij het plannen van veiligere en efficiëntere acties.

Aanraken om te zien

Voor aanraking met visie, het doel was dat het model een visueel beeld zou produceren op basis van tactiele gegevens. Het model analyseerde een tastbaar beeld, en bedacht toen de vorm en het materiaal van de contactpositie. Vervolgens keek het terug naar het referentiebeeld om de interactie te 'hallucineren'.

Bijvoorbeeld, als het model tijdens het testen tactiele gegevens op een schoen kreeg, het zou een beeld kunnen opleveren van waar die schoen het meest waarschijnlijk zou worden aangeraakt.

Dit type vaardigheid kan nuttig zijn voor het uitvoeren van taken in gevallen waar er geen visuele gegevens zijn, zoals wanneer een licht uit is, of als een persoon blindelings in een doos of onbekend gebied reikt.

Vooruit kijken

De huidige dataset bevat alleen voorbeelden van interacties in een gecontroleerde omgeving. Het team hoopt dit te verbeteren door gegevens te verzamelen in meer ongestructureerde gebieden, of door een nieuwe door MIT ontworpen tactiele handschoen te gebruiken, om de omvang en diversiteit van de dataset beter te vergroten.

Er zijn nog steeds details die lastig kunnen worden afgeleid uit schakelmodi, zoals de kleur van een object vertellen door het gewoon aan te raken, of vertellen hoe zacht een bank is zonder er echt op te drukken. De onderzoekers zeggen dat dit kan worden verbeterd door robuustere modellen voor onzekerheid te maken, om de verdeling van mogelijke uitkomsten uit te breiden.

In de toekomst, dit type model zou kunnen helpen bij een meer harmonieuze relatie tussen visie en robotica, speciaal voor objectherkenning, grijpen, beter begrip van de scène, en helpen met naadloze mens-robotintegratie in een ondersteunende of productieomgeving.

"Dit is de eerste methode die overtuigend kan vertalen tussen visuele en aanraaksignalen, " zegt Andrew Owens, een postdoc aan de University of California in Berkeley. "Methoden als deze hebben het potentieel om zeer nuttig te zijn voor robotica, waar je vragen moet beantwoorden als 'is dit object hard of zacht?', of 'als ik deze mok aan het handvat optil, hoe goed zal mijn grip zijn?" Dit is een zeer uitdagend probleem, omdat de signalen zo verschillend zijn, en dit model heeft grote capaciteiten laten zien."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.