science >> Wetenschap >  >> Elektronica

Onderzoekers gebruiken deep learning om automatisch spraakherkenningssysteem te bouwen om de Seneca-taal te behouden

Van links naar rechts, Ray Ptucha, assistent-professor computertechniek, Robbie Jimerson, promovendus informatica, beide van RIT, en Emily Prud'hommeaux, assistent-professor informatica, leiden het NSF-project om kunstmatige intelligentietechnologie te gebruiken om de Seneca-taal te behouden. Krediet:A. Sue Weisler/RIT

Een nieuw onderzoeksproject aan het Rochester Institute of Technology zal ertoe bijdragen dat de bedreigde taal van de Seneca Indian Nation behouden blijft. Met behulp van diep leren, een vorm van kunstmatige intelligentie, RIT-onderzoekers bouwen een automatische spraakherkenningstoepassing om de traditionele taal van de Seneca-bevolking te documenteren en te transcriberen. Het werk is ook bedoeld als een technologische hulpbron om andere zeldzame of verdwijnende talen te behouden.

"De motivatie hiervoor is persoonlijk. De eerste stap in het behoud en de revitalisering van onze taal is het documenteren ervan, " zei Robert Jimerson (Seneca), een informatica- en informatiewetenschappen doctoraatsstudent aan het RIT en lid van het onderzoeksteam. Hij bracht stamoudsten en goede vrienden samen, alle sprekers van Seneca, om te helpen bij het produceren van audio- en tekstdocumentatie van deze Indiaanse taal die vloeiend wordt gesproken door minder dan 50 personen.

Zoals alle talen, Seneca heeft verschillende dialecten. Het biedt ook unieke uitdagingen vanwege het complexe systeem voor het bouwen van nieuwe woorden, waarin een hele zin in één woord kan worden uitgedrukt.

Jimerson is in staat om zowel de technologie als de taal te overbruggen.

"Onder de motorkap, het zijn gegevens. Met veel inheemse talen, je hebt niet zoveel data, " hij zei, uitleggen dat sommige talen, terwijl gesproken, heeft misschien niet zoveel formele taalkundige hulpmiddelen - woordenboeken, grammaticaal materiaal of uitgebreide lessen voor anderstaligen, vergelijkbaar met die voor Spaans of Chinees. "Een van de duurste en meest tijdrovende processen voor het documenteren van taal is het verzamelen en transcriberen ervan. We kijken naar het nemen van diepe netwerken en misschien het veranderen van de architectuur, wat synthetische gegevens maken om meer gegevens te creëren, maar hoe laat je dit werken in deep learning? Hoe vergroot je gegevens die je al hebt?"

Dat proces om gegevens te verkrijgen wordt gecoördineerd door een breed team dat Jimerson omvat; de projecthoofdonderzoeker Emily Prud'hommeaux, assistent-professor computerwetenschappen aan Boston College en onderzoeksfaculteit in RIT's College of Liberal Arts; Ray Ptucha, assistent-professor computertechnologie aan het Kate Gleason College of Engineering van RIT en een expert in deep learning-systemen en -technologieën; en Karen Michaelson, hoogleraar taalkunde, de Staatsuniversiteit van New York in Buffalo. Het onderzoeksteam ontving $ 181, 682 in financiering gedurende vier jaar van de National Science Foundation voor "Collaborative Research:Deep learning spraakherkenning voor document Seneca en andere acuut onderbeschikte talen."

"Dit is een spannend project omdat het mensen uit zoveel disciplines en achtergronden samenbrengt, van techniek en informatica tot taalkunde en taalpedagogiek, "zei Prud'hommeaux. "Naast ons in staat te stellen geavanceerde technologie te ontwikkelen, dit project ondersteunt niet-gegradueerde en afgestudeerde studenten en betrekt leden van een inheemse gemeenschap waarvan maar weinig mensen weten dat deze hier in het westen van New York is."

De onderzoekers startten eind juni met het project, het samenbrengen van de leden van de gemeenschap en taalkundigen voor het verzamelen van gegevens - het verwerven en vertalen van huidige en nieuwe, originele opnames van Seneca-gesprekken en vervolgens gegevens omzetten in tekstuele uitvoer met behulp van deep learning-modellen.

"Wat je echt probeert te doen, is die lijn vinden tussen de nieuwe gegevens die je kunt krijgen en het veranderen van de architectuur van een netwerk, ' legde Jimerson uit.

Sinds de zomer, het team heeft iets meer dan 50 uur aan opgenomen materiaal met mensen die fulltime aan de vertalingen werken, waaronder het opsplitsen van de taal in individuele fonetische symbolen en het gebruiken van deze informatie om te beginnen met het trainen van de modellen.

"We gebruiken een proces dat transfer learning wordt genoemd en dat begint met een model dat is getraind met gemakkelijk beschikbare Engelse spraak om de basis, initiële training voor het systeem, dan zullen we de neurale netwerken opnieuw trainen en afstemmen op de Seneca-taal. We behalen zeer goede resultaten, " zei Ptucha, die een expert is in deep learning-systemen en -technologieën. Deep learning-technologie bestaat uit meerdere lagen kunstmatige neuronen, georganiseerd in een steeds abstractere hiërarchie. Deze architecturen hebben state-of-the-art resultaten opgeleverd voor alle soorten patroonherkenningsproblemen, inclusief toepassingen voor beeld- en spraakherkenning.

"Niemand heeft dit echt eerder geprobeerd, het trainen van een geautomatiseerd spraakherkenningsmodel op iets dat zo beperkt is als Seneca. Robbie is de expert in het transcriberen van Seneca en het trainen van de anderen om dit te doen. Hij is een vrij zeldzame man, " zei Ptucha,

Dit huidige project is een voortzetting van Jimersons werk om de taalbronnen die beschikbaar zijn voor zijn gemeenschap uit te breiden. In 2013, terwijl hij een afgestudeerde student was in RIT's Golisano College of Computing and Information Sciences, hij ontwikkelde een online Seneca-taalvertaalwoordenboek voor het Seneca Language Revitalization Program. Het project werd gefinancierd door de Seneca Nation en toegekend aan RIT's Future Steward's Program.