science >> Wetenschap >  >> Elektronica

Computersysteem transcribeert woorden die gebruikers in stilte spreken

Arnav Kapur, een onderzoeker in de Fluid Interfaces-groep van het MIT Media Lab, demonstreert het AlterEgo-project. Credit:Lorrie Lejeune/MIT

MIT-onderzoekers hebben een computerinterface ontwikkeld die woorden kan transcriberen die de gebruiker intern verwoordt, maar niet echt hardop uitspreekt.

Het systeem bestaat uit een draagbaar apparaat en een bijbehorend computersysteem. Elektroden in het apparaat pikken neuromusculaire signalen op in de kaak en het gezicht die worden geactiveerd door interne verbalisaties - woorden "in je hoofd" zeggen - maar die niet detecteerbaar zijn voor het menselijk oog. De signalen worden toegevoerd aan een machine learning-systeem dat is getraind om bepaalde signalen te correleren met bepaalde woorden.

Het apparaat bevat ook een beengeleidingshoofdtelefoon, die trillingen door de botten van het gezicht naar het binnenoor overbrengen. Omdat ze de gehoorgang niet belemmeren, de hoofdtelefoon stelt het systeem in staat om informatie aan de gebruiker over te brengen zonder het gesprek te onderbreken of anderszins de auditieve ervaring van de gebruiker te verstoren.

Het apparaat maakt dus deel uit van een volledig stil computersysteem waarmee de gebruiker onopgemerkt kan poseren en antwoorden kan krijgen op moeilijke rekenproblemen. In een van de experimenten van de onderzoekers, bijvoorbeeld, proefpersonen gebruikten het systeem om in stilte de zetten van tegenstanders in een schaakspel te rapporteren en net zo stil computer-aanbevolen antwoorden te ontvangen.

"De motivatie hiervoor was om een ​​IA-apparaat te bouwen - een apparaat voor het vergroten van de intelligentie, " zegt Arnav Kapur, een afgestudeerde student aan het MIT Media Lab, die de ontwikkeling van het nieuwe systeem leidde. "Ons idee was:kunnen we een computerplatform hebben dat meer intern, dat mens en machine op een bepaalde manier versmelt en dat voelt als een interne uitbreiding van onze eigen cognitie?"

"We kunnen eigenlijk niet leven zonder onze mobiele telefoons, onze digitale apparaten, " zegt Pattie Maes, hoogleraar mediakunsten en -wetenschappen en scriptieadviseur van Kapur. "Maar op dit moment het gebruik van die apparaten is zeer storend. Als ik iets wil opzoeken dat relevant is voor een gesprek dat ik heb, Ik moet mijn telefoon vinden en de toegangscode typen en een app openen en een zoekwoord typen, en het hele ding vereist dat ik de aandacht volledig verleg van mijn omgeving en de mensen met wie ik ben naar de telefoon zelf. Dus, mijn studenten en ik hebben heel lang geëxperimenteerd met nieuwe vormfactoren en nieuwe soorten ervaringen waardoor mensen nog steeds kunnen profiteren van alle geweldige kennis en diensten die deze apparaten ons bieden, maar doe het op een manier die hen in het heden laat blijven."

De onderzoekers beschrijven hun apparaat in een paper die ze presenteerden op de ACM Intelligent User Interface-conferentie van de Association for Computing Machinery. Kapur is eerste auteur op het papier, Maes is de senior auteur, en ze worden vergezeld door Shreyas Kapur, een undergraduate major in elektrotechniek en informatica.

Subtiele signalen

Het idee dat interne verbalisaties fysieke correlaten hebben bestaat al sinds de 19e eeuw, en het werd serieus onderzocht in de jaren vijftig. Een van de doelen van de snelleesbeweging van de jaren zestig was het elimineren van interne verbalisatie, of "subvocalisatie, "zoals het bekend is.

Maar subvocalisatie als computerinterface is grotendeels onontgonnen. De eerste stap van de onderzoekers was om te bepalen welke locaties op het gezicht de bronnen zijn van de meest betrouwbare neuromusculaire signalen. Dus voerden ze experimenten uit waarbij dezelfde proefpersonen werd gevraagd om dezelfde reeks woorden vier keer te subvocaliseren, met telkens een reeks van 16 elektroden op verschillende gezichtslocaties.

Krediet:Massachusetts Institute of Technology

De onderzoekers schreven code om de resulterende gegevens te analyseren en ontdekten dat signalen van zeven specifieke elektrodelocaties consistent gesubvocaliseerde woorden konden onderscheiden. In de conferentiekrant de onderzoekers rapporteren een prototype van een draagbare stille spraakinterface, die zich als een telefoonhoofdtelefoon om de achterkant van de nek wikkelt en tentakelachtige gebogen aanhangsels heeft die het gezicht op zeven locaties aan weerszijden van de mond en langs de kaken raken.

Maar in de huidige experimenten de onderzoekers krijgen vergelijkbare resultaten met slechts vier elektroden langs één kaak, wat zou moeten leiden tot een minder opdringerig draagbaar apparaat.

Nadat ze de elektrodelocaties hadden geselecteerd, de onderzoekers begonnen gegevens te verzamelen over een paar rekentaken met een beperkte woordenschat - elk ongeveer 20 woorden. Een daarvan was rekenen, waarin de gebruiker grote optel- of vermenigvuldigingsproblemen zou subvocaliseren; een andere was de schaaktoepassing, waarin de gebruiker zetten zou rapporteren met behulp van het standaard schaaknummeringssysteem.

Vervolgens, voor elke toepassing, ze gebruikten een neuraal netwerk om correlaties te vinden tussen bepaalde neuromusculaire signalen en bepaalde woorden. Zoals de meeste neurale netwerken, degene die de onderzoekers gebruikten, is gerangschikt in lagen van eenvoudige verwerkingsknooppunten, die elk zijn verbonden met verschillende knooppunten in de lagen erboven en eronder. Gegevens worden ingevoerd in de onderste laag, wiens knooppunten het verwerken en doorgeven aan de volgende laag, wiens knooppunten het verwerken en doorgeven aan de volgende laag, enzovoort. De output van de uiteindelijke laagopbrengst is het resultaat van een classificatietaak.

De basisconfiguratie van het systeem van de onderzoekers omvat een neuraal netwerk dat getraind is om gesubvocaliseerde woorden uit neuromusculaire signalen te identificeren, maar het kan worden aangepast aan een bepaalde gebruiker via een proces dat alleen de laatste twee lagen opnieuw traint.

Praktische zaken

Met behulp van de prototype draagbare interface, de onderzoekers voerden een bruikbaarheidsonderzoek uit waarbij 10 proefpersonen elk ongeveer 15 minuten besteedden aan het aanpassen van de rekenkundige toepassing aan hun eigen neurofysiologie, besteedde er vervolgens nog 90 minuten aan om berekeningen uit te voeren. In die studie, het systeem had een gemiddelde transcriptienauwkeurigheid van ongeveer 92 procent.

Maar, Kapur zegt, de prestaties van het systeem zouden moeten verbeteren met meer trainingsgegevens, die bij normaal gebruik kunnen worden verzameld. Hoewel hij de cijfers niet heeft gekraakt, hij schat dat het beter getrainde systeem dat hij gebruikt voor demonstraties een hogere nauwkeurigheid heeft dan gerapporteerd in de bruikbaarheidsstudie.

Bij lopende werkzaamheden, de onderzoekers verzamelen een schat aan gegevens over uitgebreidere gesprekken, in de hoop toepassingen te bouwen met veel uitgebreidere vocabulaires. "We zijn bezig met het verzamelen van gegevens, en het resultaat ziet er mooi uit, "zegt Kapur. "Ik denk dat we op een dag tot een volledig gesprek zullen komen."

"Ik denk dat ze een beetje onderbieden wat volgens mij een reëel potentieel voor het werk is, " zegt Thad Starner, een professor in Georgia Tech's College of Computing. "Leuk vinden, zeggen, het besturen van de vliegtuigen op het tarmac op Hartsfield Airport hier in Atlanta. Je hebt overal om je heen jetgeluid, je draagt ​​deze grote oorbeschermingsdingen - zou het niet geweldig zijn om met je stem te communiceren in een omgeving waar je normaal niet in staat zou zijn? Je kunt je al deze situaties voorstellen waarin je een lawaaierige omgeving hebt, als de cockpit van een vliegdekschip, of zelfs plaatsen met veel machines, zoals een elektriciteitscentrale of een drukpers. Dit is een systeem dat logisch zou zijn, vooral omdat mensen in dit soort of situaties vaak al beschermende kleding dragen. Bijvoorbeeld, als je een gevechtspiloot bent, of als je een brandweerman bent, je draagt ​​deze maskers al."

"Het andere waar dit uiterst nuttig is, zijn speciale operaties, " Starner voegt toe. "Er zijn veel plaatsen waar het geen lawaaierige omgeving is, maar een stille omgeving. Veel tijd, mensen met speciale operaties hebben handgebaren, maar die zie je niet altijd. Zou het niet geweldig zijn om stille spraak te hebben voor communicatie tussen deze mensen? De laatste zijn mensen met een handicap waar ze niet normaal kunnen vocaliseren. Bijvoorbeeld, Roger Ebert kon niet meer praten omdat hij zijn kaak verloor door kanker. Zou hij dit soort stille spraak kunnen doen en dan een synthesizer hebben die de woorden zou uitspreken?"

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.