science >> Wetenschap >  >> Elektronica

Onderzoekers stellen een nieuw en effectiever model voor automatische spraakherkenning voor

Het fonetisch-semantische pre-trainingskader (PSP) maakt gebruik van 'geluidsbewust curriculum' om de prestaties van ASR in lawaaierige omgevingen effectief te verbeteren. integratie van warming-up, zelf-gesuperviseerd leren, en fine-tuning. Credit:CAAI onderzoek naar kunstmatige intelligentie , Tsinghua University Press

Populaire stemassistenten zoals Siri en Amazon Alexa hebben automatische spraakherkenning (ASR) geïntroduceerd bij het grote publiek. Hoewel tientallen jaren in de maak, worstelen ASR-modellen met consistentie en betrouwbaarheid, vooral in lawaaierige omgevingen. Chinese onderzoekers ontwikkelden een raamwerk dat de prestaties van ASR effectief verbetert voor de chaos van alledaagse akoestische omgevingen.

Onderzoekers van de Hong Kong University of Science and Technology en WeBank stelden een nieuw raamwerk voor:fonetisch-semantische pre-training (PSP) en demonstreerden de robuustheid van hun nieuwe model tegen synthetische spraakdatasets met veel ruis.

Hun studie werd gepubliceerd in CAAI Artificial Intelligence Research op 28 aug.

"Robuustheid is een langdurige uitdaging voor ASR", zegt Xueyang Wu van de Hong Kong University of Science and Technology Department of Computer Science and Engineering. "We willen de robuustheid van het Chinese ASR-systeem vergroten tegen lage kosten."

ASR gebruikt machine learning en andere kunstmatige-intelligentietechnieken om spraak automatisch in tekst te vertalen voor toepassingen zoals spraakgestuurde systemen en transcriptiesoftware. Maar nieuwe, op de consument gerichte toepassingen vragen steeds vaker om spraakherkenning om beter te werken:meer talen en accenten aan te kunnen en betrouwbaarder te presteren in levensechte situaties zoals videoconferenties en live-interviews.

Traditioneel vereist het trainen van de akoestische en taalmodellen waaruit ASR bestaat, grote hoeveelheden geluidsspecifieke gegevens, wat tijdrovend en kostbaar kan zijn.

Het akoestische model (AM) verandert woorden in 'telefoons', opeenvolgingen van basisgeluiden. Het taalmodel (LM) decodeert telefoons in zinnen in natuurlijke taal, meestal met een proces in twee stappen:een snelle maar relatief zwakke LM genereert een reeks zinkandidaten en een krachtige maar rekenkundig dure LM selecteert de beste zin uit de kandidaten.

"Traditionele leermodellen zijn niet bestand tegen luidruchtige akoestische modeluitgangen, vooral voor Chinese polyfone woorden met identieke uitspraak," zei Wu. "Als de eerste passage van de decodering van het leermodel onjuist is, is het buitengewoon moeilijk om de tweede passage in te halen."

Het nieuw voorgestelde raamwerk PSP maakt het gemakkelijker om verkeerd geclassificeerde woorden te herstellen. Door een model voor te trainen dat de AM-uitgangen direct vertaalt naar een zin, samen met de volledige contextinformatie, kunnen onderzoekers de LM helpen efficiënt te herstellen van de luidruchtige uitgangen van de AM.

Dankzij het PSP-framework kan het model worden verbeterd door middel van een pre-trainingsregime dat noise-aware curriculum wordt genoemd en dat geleidelijk nieuwe vaardigheden introduceert, gemakkelijk begint en geleidelijk overgaat in complexere taken.

"Het meest cruciale onderdeel van onze voorgestelde methode, Noise-aware Curriculum Learning, simuleert het mechanisme van hoe mensen een zin herkennen aan luidruchtige spraak," zei Wu.

Opwarmen is de eerste fase, waarbij onderzoekers een telefoon-naar-woord-transducer vooraf trainen op een schone telefoonreeks, die alleen wordt vertaald uit niet-gelabelde tekstgegevens, om de annotatietijd te verkorten. Deze fase "warmt" het model op, waarbij de basisparameters worden geïnitialiseerd om telefoonreeksen aan woorden toe te wijzen.

In de tweede fase, zelf-gesuperviseerd leren, leert de transducer van complexere gegevens die worden gegenereerd door zelf-gesuperviseerde trainingstechnieken en -functies. Ten slotte wordt de resulterende telefoon-naar-woord-transducer nauwkeurig afgesteld met spraakgegevens uit de echte wereld.

De onderzoekers hebben experimenteel de effectiviteit van hun raamwerk aangetoond op twee real-life datasets verzameld uit industriële scenario's en synthetische ruis. De resultaten toonden aan dat het PSP-framework de traditionele ASR-pijplijn effectief verbetert, door de relatieve karakterfoutpercentages te verminderen met 28,63% voor de eerste dataset en 26,38% voor de tweede.

In de volgende stappen zullen onderzoekers effectievere PSP-pre-trainingsmethoden onderzoeken met grotere ongepaarde datasets, om de effectiviteit van pre-training voor ruis-robuuste LM te maximaliseren. + Verder verkennen

Multi-task learning gebruiken voor spraakvertaling met lage latentie