Wetenschap
Krediet:Oticon
Voor mensen met gehoorverlies, het kan erg moeilijk zijn om stemmen te verstaan en te scheiden in rumoerige omgevingen. Dit probleem kan binnenkort verleden tijd zijn dankzij een nieuw baanbrekend algoritme dat is ontworpen om stemmen efficiënt te herkennen en te scheiden in onbekende geluidsomgevingen.
Mensen met een normaal gehoor kunnen elkaar meestal zonder moeite verstaan als ze communiceren in rumoerige omgevingen. Echter, voor mensen met gehoorverlies, het is een grote uitdaging om stemmen te verstaan en te scheiden in rumoerige omgevingen, en een gehoorapparaat kan echt helpen. Maar er is nog een lange weg te gaan als het gaat om algemene geluidsverwerking in hoortoestellen, legt Morten Kolbæk uit:
"Als het scenario van tevoren bekend is, zoals in bepaalde klinische testopstellingen, bestaande algoritmen kunnen de menselijke prestaties al verslaan als het gaat om het herkennen en onderscheiden van sprekers. Echter, in normale luistersituaties zonder enige voorkennis, het menselijk auditief brein blijft de beste machine."
Maar dit is precies wat Morten Kolbæk heeft proberen te veranderen met zijn nieuwe algoritme.
"Vanwege zijn vermogen om te functioneren in onbekende omgevingen met onbekende stemmen, de toepasbaarheid van dit algoritme is zoveel sterker dan wat we hebben gezien met eerdere technologie. Het is een belangrijke stap voorwaarts als het gaat om het oplossen van uitdagende luistersituaties in het dagelijks leven, " zegt een van de twee supervisors van Morten Kolbæk, Jesper Jensen, Senior onderzoeker bij Oticon en professor bij het Center for Acoustic Signal Processing Research (CASPR) bij AAU.
Professor Zheng-Hua Tan, die ook verbonden is aan CASPR en begeleider van het project, is het eens met de grote potentie van het algoritme binnen gedegen onderzoek.
"De sleutel tot succes van dit algoritme is het vermogen om van gegevens te leren en vervolgens krachtige statistische modellen te bouwen die complexe luistersituaties kunnen weergeven. Dit leidt tot oplossingen die heel goed werken, zelfs in nieuwe en onbekende luistersituaties, " legt Zheng-Hua Tan uit.
Ruisonderdrukking en spraakscheiding
specifiek, Morten Kolbæk's Ph.D. project heeft zich beziggehouden met twee verschillende maar bekende luisterscenario's.
De eerste track is bedoeld om de uitdagingen van één-op-één-gesprekken op te lossen in lawaaierige ruimtes zoals autocabines. Gebruikers van hoortoestellen worden regelmatig met dergelijke uitdagingen geconfronteerd.
"Om ze op te lossen, we hebben algoritmen ontwikkeld die het geluid van de luidspreker kunnen versterken en ruis aanzienlijk kunnen verminderen zonder enige voorkennis over de luistersituatie. Huidige hoortoestellen zijn voorgeprogrammeerd voor een aantal verschillende situaties, maar in het echte leven de omgeving verandert voortdurend en vraagt om een hoortoestel dat de specifieke situatie direct kan lezen, " legt Morten Kolbæk uit.
Het tweede spoor van het project draait om spraakscheiding. Bij dit scenario zijn meerdere sprekers betrokken, en de gebruiker van een hoortoestel kan geïnteresseerd zijn in het horen van sommige of alle. De oplossing is een algoritme dat stemmen kan scheiden en tegelijkertijd ruis kan verminderen. Deze track kan worden beschouwd als een uitbreiding van de eerste track, maar nu met twee of meer stemmen.
"Je kunt zeggen dat Morten dat ontdekte door hier en daar een paar dingen aan te passen, het algoritme werkt met verschillende onbekende luidsprekers in lawaaierige omgevingen. Beide onderzoekstrajecten van Morten zijn significant en hebben veel aandacht getrokken, ' zegt Jesper Jensen.
Diepe neurale netwerken
De methode die wordt gebruikt bij het maken van de algoritmen wordt "deep learning, " die valt onder de categorie machine learning. Meer specifiek, Morten Kolbæk heeft gewerkt met diepe neurale netwerken, een type algoritme dat je traint door het voorbeelden te geven van de signalen die het in de echte wereld zal tegenkomen.
"Indien, bijvoorbeeld, we praten over spraak-in-ruis, je geeft het algoritme een voorbeeld van een stem in een rumoerige omgeving en een van de stem zonder ruis. Op deze manier, het algoritme leert het ruissignaal te verwerken om een duidelijk spraaksignaal te krijgen. Je voedt het netwerk met duizenden voorbeelden, en tijdens dit proces het zal leren hoe een bepaalde stem te verwerken in een realistische omgeving, " legt Jesper Jensen uit.
"De kracht van deep learning komt van de hiërarchische structuur die in staat is om ruis of gemengde spraaksignalen om te zetten in zuivere of gescheiden stemmen door laag-voor-laag verwerking. Het wijdverbreide gebruik van deep learning is tegenwoordig te wijten aan drie belangrijke factoren:altijd- toenemende rekenkracht, toenemende hoeveelheid big data voor het trainen van algoritmen en nieuwe methoden voor het trainen van diepe neurale netwerken, " zegt Zheng-Hua Tan.
Een computer achter het oor
Een ding is om het algoritme te ontwikkelen, een andere is om het te laten werken in een echt hoortoestel. Momenteel, Het algoritme van Morten Kolbæk voor spraakscheiding werkt alleen op grotere schaal.
"Als het om hoortoestellen gaat, de uitdaging is altijd om de technologie te laten werken op een kleine computer achter het oor. En nu, Daarvoor heeft het algoritme van Morten te veel ruimte nodig. Zelfs als het Mortens-algoritme verschillende onbekende stemmen van elkaar kan scheiden, hij kan niet kiezen welke stem hij wil presenteren aan de hoortoestelgebruiker. Er zijn dus enkele praktische problemen die we moeten oplossen voordat we het kunnen introduceren in een hoortoesteloplossing. Echter, het belangrijkste is dat deze problemen nu oplosbaar lijken."
Het fenomeen cocktailparty
Mensen met een normaal gehoor zijn vaak in staat zich op één spreker te concentreren, zelfs in akoestisch moeilijke situaties waar andere mensen tegelijkertijd spreken. Bekend als het cocktailpartyfenomeen, het probleem heeft geleid tot een zeer actief onderzoeksgebied over hoe het menselijk brein dit probleem zo goed kan oplossen. Met deze Ph.D. projecteren, we zijn een stap dichter bij het oplossen van dit probleem, Jesper Jensen legt uit:
"Je hoort wel eens dat het cocktailparty-probleem is opgelost. Dat is nog niet het geval. Als de omgeving en stemmen totaal onbekend zijn, wat in de echte wereld vaak het geval is, de huidige technologie kan simpelweg niet tippen aan het menselijk brein, dat buitengewoon goed werkt in onbekende omgevingen. Maar het algoritme van Morten is een grote stap om machines te laten functioneren en mensen met een normaal gehoor en mensen met gehoorverlies in dergelijke omgevingen te helpen. " hij zegt.
Wetenschap © https://nl.scienceaq.com