Wetenschap
Krediet:CC0 Publiek Domein
In een wetenschappelijke primeur Neuro-ingenieurs van Columbia hebben een systeem gecreëerd dat gedachten vertaalt in begrijpelijke, herkenbare spraak. Door iemands hersenactiviteit te monitoren, de technologie kan de woorden die een persoon hoort met ongekende helderheid reconstrueren. Deze doorbraak, die gebruikmaakt van de kracht van spraaksynthesizers en kunstmatige intelligentie, zou kunnen leiden tot nieuwe manieren waarop computers rechtstreeks met de hersenen kunnen communiceren. Het legt ook de basis voor het helpen van mensen die niet kunnen praten, zoals degenen die leven met amyotrofische laterale sclerose (ALS) of herstellende zijn van een beroerte, hun vermogen om met de buitenwereld te communiceren terugkrijgen.
Deze bevindingen zijn vandaag gepubliceerd in Wetenschappelijke rapporten .
"Onze stemmen helpen ons in contact te komen met onze vrienden, familie en de wereld om ons heen, daarom is het zo verwoestend om de kracht van je stem te verliezen door een verwonding of ziekte, " zei Nima Mesgarani, doctoraat, de senior auteur van het artikel en een hoofdonderzoeker aan het Mortimer B. Zuckerman Mind Brain Behavior Institute van de Columbia University. "Met de studie van vandaag, we hebben een mogelijke manier om die kracht te herstellen. Dat hebben we laten zien, met de juiste technologie, gedachten van deze mensen kunnen worden gedecodeerd en begrepen door elke luisteraar."
Decennia van onderzoek heeft aangetoond dat wanneer mensen spreken - of zich zelfs maar voorstellen dat ze spreken - er veelbetekenende patronen van activiteit in hun hersenen verschijnen. Een duidelijk (maar herkenbaar) patroon van signalen komt ook naar voren wanneer we luisteren naar iemand die spreekt, of stel je voor dat je luistert. Experts, proberen deze patronen op te nemen en te decoderen, zie een toekomst waarin gedachten niet verborgen hoeven te blijven in de hersenen, maar in plaats daarvan naar believen in verbale spraak kunnen worden vertaald.
Maar het bereiken van deze prestatie is een uitdaging gebleken. Vroege pogingen om hersensignalen te decoderen door Dr. Mesgarani en anderen waren gericht op eenvoudige computermodellen die spectrogrammen analyseerden, die visuele representaties zijn van geluidsfrequenties.
Maar omdat deze benadering niets heeft opgeleverd dat lijkt op verstaanbare spraak, Dr. Mesgarani's team wendde zich in plaats daarvan tot een vocoder, een computeralgoritme dat spraak kan synthetiseren nadat het is getraind op opnames van pratende mensen.
"Dit is dezelfde technologie die door Amazon Echo en Apple Siri wordt gebruikt om mondelinge antwoorden op onze vragen te geven, " zei dr. Mesgarani, die ook een universitair hoofddocent elektrotechniek is aan de Fu Foundation School of Engineering and Applied Science van Columbia.
Om de vocoder te leren interpreteren naar hersenactiviteit, Dr. Mesgarani werkte samen met Ashesh Dinesh Mehta, MD, doctoraat, een neurochirurg bij Northwell Health Physician Partners Neuroscience Institute en co-auteur van het artikel van vandaag. Dr. Mehta behandelt epilepsiepatiënten, sommigen van hen moeten regelmatig geopereerd worden.
"Werken met Dr. Mehta, we vroegen epilepsiepatiënten die al een hersenoperatie ondergingen om te luisteren naar zinnen die door verschillende mensen werden uitgesproken, terwijl we patronen van hersenactiviteit maten, " zei Dr. Mesgarani. "Deze neurale patronen trainden de vocoder."
Volgende, de onderzoekers vroegen diezelfde patiënten om te luisteren naar sprekers die cijfers tussen 0 en 9 reciteerden tijdens het opnemen van hersensignalen die vervolgens door de vocoder kunnen worden geleid. Het geluid geproduceerd door de vocoder als reactie op die signalen werd geanalyseerd en opgeschoond door neurale netwerken, een soort kunstmatige intelligentie die de structuur van neuronen in het biologische brein nabootst.
Het eindresultaat was een robotachtig klinkende stem die een reeks getallen reciteerde. Om de nauwkeurigheid van de opname te testen, Dr. Mesgarani en zijn team gaven individuen de opdracht om naar de opname te luisteren en te rapporteren wat ze hoorden.
"We ontdekten dat mensen de geluiden ongeveer 75% van de tijd konden begrijpen en herhalen, die veel verder gaat dan alle eerdere pogingen, " zei Dr. Mesgarani. De verbetering van de verstaanbaarheid was vooral duidelijk bij het vergelijken van de nieuwe opnames met de eerdere, spectrogram-gebaseerde pogingen. "De gevoelige vocoder en krachtige neurale netwerken vertegenwoordigden de geluiden waar de patiënten oorspronkelijk naar hadden geluisterd met verrassende nauwkeurigheid."
Dr. Mesgarani en zijn team zijn van plan om vervolgens meer gecompliceerde woorden en zinnen te testen, en ze willen dezelfde tests uitvoeren op hersensignalen die worden uitgezonden wanneer een persoon spreekt of zich inbeeldt te spreken. uiteindelijk, ze hopen dat hun systeem deel kan uitmaken van een implantaat, vergelijkbaar met die van sommige epilepsiepatiënten, dat de gedachten van de drager direct in woorden vertaalt.
"In dit scenario, als de drager denkt 'ik heb een glas water nodig, ' ons systeem kan de hersensignalen opvangen die door die gedachte worden gegenereerd, en zet ze om in gesynthetiseerde, verbale spraak, " zei Dr. Mesgarani. "Dit zou een game changer zijn. Het zou iedereen die zijn spraakvermogen heeft verloren, hetzij door een verwonding of ziekte, de hernieuwde kans om verbinding te maken met de wereld om hen heen."
Dit artikel is getiteld "Op weg naar het reconstrueren van verstaanbare spraak vanuit de menselijke auditieve cortex."
Wetenschap © https://nl.scienceaq.com