Wetenschap
Een onderzoeksteam van het National Institute of Informatics (NII/Tokyo, Japan) inclusief Xin Wang, Shinji Takaki en Junichi Yamagishi hebben een neuraal bronfilter (NSF)-model ontwikkeld voor snelle, hoogwaardige spraaksynthese. Deze techniek, die recente deep-learning-algoritmen combineert met een klassiek spraakproductiemodel uit de jaren zestig, is niet alleen in staat om hoogwaardige stemgolfvormen te genereren die sterk lijken op de menselijke stem, maar ook van het uitvoeren van stabiel leren via neurale netwerken.
Daten, veel spraaksynthesesystemen hebben de vocoder-benadering overgenomen, een methode voor het synthetiseren van spraakgolfvormen die veel wordt gebruikt in mobiele telefoonnetwerken en andere toepassingen. Echter, de kwaliteit van de door deze methoden gesynthetiseerde spraakgolfvormen is inferieur gebleven aan die van de menselijke stem. in 2016, een invloedrijk buitenlands technologiebedrijf stelde WaveNet voor - een spraaksynthesemethode op basis van diepgaande algoritmen - en demonstreerde het vermogen om hoogwaardige spraakgolfvormen te synthetiseren die op de menselijke stem lijken. Echter, een nadeel van WaveNet is de extreem complexe structuur van zijn neurale netwerken, die grote hoeveelheden spraakgegevens vereisen voor machinaal leren en waarvoor het afstemmen van parameters en verschillende andere moeizame trial-and-error-procedures vele malen moeten worden herhaald voordat nauwkeurige voorspellingen kunnen worden verkregen.
Overzicht en resultaten van het onderzoek
Een van de meest bekende vocoders is de source-filter vocoder, die in de jaren zestig werd ontwikkeld en nog steeds op grote schaal wordt gebruikt. Het NII-onderzoeksteam heeft de conventionele source-filter vocoder-methode doordrenkt met moderne neurale netwerkalgoritmen om een nieuwe techniek te ontwikkelen voor het synthetiseren van hoogwaardige spraakgolfvormen die op de menselijke stem lijken. Een van de voordelen van deze neurale bronfiltermethode (NSF) is de eenvoudige structuur van de neurale netwerken, die slechts ongeveer een uur aan spraakgegevens nodig hebben voor machine learning en die correcte voorspellende resultaten kunnen verkrijgen zonder uitgebreide parameterafstemming. Bovendien, grootschalige luistertests hebben aangetoond dat spraakgolfvormen geproduceerd door NSF-technieken qua kwaliteit vergelijkbaar zijn met die gegenereerd door WaveNet.
Omdat de theoretische basis van NSF verschilt van de gepatenteerde technologieën die worden gebruikt door invloedrijke buitenlandse ICT-bedrijven, de toepassing van NSF-technieken zal waarschijnlijk nieuwe technologische vooruitgang in spraaksynthese stimuleren. Om deze reden, de broncode die de NSF-methode implementeert, is gratis ter beschikking gesteld van het publiek, waardoor het breed inzetbaar is.
Wetenschap © https://nl.scienceaq.com