science >> Wetenschap >  >> Elektronica

Mozilla-initiatief helpt spraaktechnologiespelers via meertalige dataset

Dit klinkt misschien als een mondvol, maar het betekent echt veel. Mozilla heeft het over de 'grootste tot nu toe getranscribeerde spraakdataset in het publieke domein'. Vertaling:meer dan 14, 000 mensen. In 18 talen. Van bijna 1, 400 uur (1, 368 om precies te zijn) van de opgenomen stem. Welkom bij een initiatief genaamd Common Voice.

Dit is wat de Mozilla-aankondiging zei:in de vorm van een blog op donderdag van George Roter.

"Vandaag, we zijn verheugd om onze eerste meertalige dataset met 18 talen te delen, inclusief Engels, Frans, Duits en Mandarijn Chinees (traditioneel), maar ook bijvoorbeeld Welsh en Kabyle. Allemaal samen, de nieuwe dataset omvat ongeveer 1, 400 uur aan spraakfragmenten van meer dan 42, 000 mensen."

Bijdragers aan het project hebben professionele specialiteiten die variëren van doctoraatskandidaten in spraakherkenning tot machine learning-wetenschappers tot een professor in computerlinguïstiek. Als zodanig, de inspanning vertegenwoordigt een wereldwijde gemeenschap van stembijdragers samen met wat Mozilla bestempelde als 'gepassioneerde vrijwilligers'.

Het doel van Common Voice is om machines te helpen leren hoe echte mensen spreken. In het kort, het is uitgegroeid tot een enorme verzameling spraakfragmenten in tientallen talen. Volgende stap:de volledige dataset kan worden gedownload op de Common Voice-site.

Het lijkt erop dat de medewerkers van het Mozilla-team ook de onvermijdelijke pijnpunten hebben opgelost. De blog noemde die punten. "Mensen die bijdragen zien niet alleen vooruitgang per taal bij het opnemen en valideren, maar hebben ook verbeterde prompts die variëren van clip tot clip; nieuwe functionaliteit om te beoordelen, opnieuw opnemen, en sla clips over als een geïntegreerd onderdeel van de ervaring; het vermogen om snel te schakelen tussen spreken en luisteren; evenals een functie om af te zien van het spreken voor een sessie."

Klinkt als leuk of een academische zandbak, maar eigenlijk zijn er meer solide ambities onder degenen die hebben bijgedragen aan het bouwen van het corpus.

in 2019, Mariella Moon binnen Engadget heeft gemerkt dat het scala aan talen nu ook Nederlands omvat, Hakha-Chin, Esperanto, Farsi, Baskisch, Spaans, Frans, Duitse, Mandarijn Chinees (traditioneel), Welsh en Kabyl.

TechRadar 's Olivia Tambini, zei, "Door gratis een enorme bibliotheek met menselijke stemmen in verschillende talen aan te bieden, Mozilla zou de deuren kunnen openen voor bedrijven die niet over de middelen van Apple beschikken, Amazone, en Google, om hun eigen stemassistenten te ontwikkelen."

Een ander voordeel betreft Mozilla zelf. Mariella Moon binnen Engadget zei, "De organisatie is van plan de verzamelde clips zelf te gebruiken om haar Speech-to-Text, Tekst-naar-spraak- en DeepSpeech-engines."

Roter zei, eenvoudigweg, "Ons doel is om zowel zelf spraakgestuurde producten uit te brengen, terwijl het ook onderzoekers en kleinere spelers ondersteunt."

Merk op dat de opschepperij toebehoort aan het feit dat het de grootste is, niet de enige, dataset in zijn soort. Mozilla wilde bezoekers van de site laten weten dat het de grootste, niet de enige, en zei ook dat sitebezoekers na verloop van tijd "naar deze pagina kunnen kijken als een referentiehub voor andere open source spraakdatasets."

Als je de Common Voice-site bezoekt, krijg je het bericht over hun scherpe ambitie. "We zijn aan het bouwen, " zei Mozilla. En wat zijn ze aan het bouwen? Een "open source, meertalige dataset van stemmen die iedereen kan gebruiken om spraakgestuurde applicaties te trainen."

Bijdragers kunnen ervoor kiezen om metadata te verstrekken, zoals hun leeftijd, seks, en accentueren. Spraakfragmenten zijn op hun beurt getagd met informatie die nuttig is bij het trainen van spraakengines.

© 2019 Wetenschap X Netwerk