science >> Wetenschap >  >> Elektronica

Maak kennis met de Cloud Text-to-Speech-service voor ontwikkelaars

Krediet:CC0 Publiek Domein

De Google Cloud Platform Blog heeft dinsdag een aankondiging gedaan, de introductie van Cloud Text-to-Speech.

Dan Aharon, Productmanager, Cloud-AI, zei, "Ontwikkelaars hebben ons verteld dat ze tekst-naar-spraak willen toevoegen aan hun eigen applicaties, dus vandaag brengen we deze technologie naar Google Cloud Platform met Cloud Text-to-Speech."

Bij Cloud Text-to-Speech draait alles om tekst-naar-spraakconversie, mogelijk gemaakt door machine learning.

Als een API, zei de website voor Cloud Text-to-Speech, je kunt interacties met gebruikers creëren, tussen applicaties en apparaten. Cloud Text-to-Speech ondersteunt applicaties of apparaten die een REST- of gRPC-verzoek kunnen verzenden. Dat omvat telefoons, pc's, tablets en IoT-apparaten (bijv. auto's, tv's, luidsprekers).

Welke real-word-toepassingen zijn van toepassing? Voorbeelden van use-cases zijn callcenterautomatisering en interactieve reacties van IoT-apparaten.

Hij zei dat Cloud Text-to-Speech klanten al helpt om hun eindgebruikers een betere ervaring te bieden.

(Robert Hof of SiliconenHOEK zei dat "enkele tientallen alfagebruikers het sinds november hebben geprobeerd.")

Klanten zijn onder meer Cisco en Dolphin ONE. De laatste integreerde Cloud Text-to-Speech in zijn producten; hun gebruikers kunnen 'natuurlijke callcenterervaringen' creëren.

Wat is Google Cloud Platform? Dit is een suite van cloud computing-services die draait op dezelfde infrastructuur die Google intern gebruikt voor producten zoals Google Zoeken en YouTube. Nutsvoorzieningen, zei Frederic Lardinois in TechCrunch , "ontwikkelaars krijgen toegang tot dezelfde door DeepMind ontwikkelde tekst-naar-spraak-engine die het bedrijf zelf momenteel gebruikt voor zijn assistent en voor zijn Google Maps-richting."

Betreed de neurale netwerkarchitectuur van WaveNet, die direct een onbewerkte audiogolfvorm genereert.

Aharon blogde, "Cloud Text-to-Speech bevat ook een selectie van high-fidelity stemmen die zijn gebouwd met WaveNet, een generatief model voor onbewerkte audio gemaakt door DeepMind. WaveNet synthetiseert natuurlijker klinkende spraak en, gemiddeld, produceert spraakaudio die mensen verkiezen boven andere tekst-naar-spraaktechnologieën."

De Cloud Text-to-Speech bevat geavanceerde spraaktechnologie; Het onderzoek van Deep Mind naar modellen voor machinaal leren om spraak te genereren die menselijke stemmen nabootst, is geslaagd. De spraak klinkt natuurlijk, en het team beweerde dat het de kloof met menselijke prestaties met meer dan 50% had verkleind.

Lardinois wees op wat de bijdrage van WaveNet aan spraak speciaal maakt:

"In tegenstelling tot eerdere pogingen, WaveNet doet geen spraaksynthese op basis van een verzameling korte spraakfragmenten, die de neiging heeft om het soort robotachtig klinkende stemmen te creëren waar je zeker bekend mee bent. In plaats daarvan, WaveNet modelleert onbewerkte audio met behulp van een machine learning-model om een ​​veel natuurlijker klinkende spraak te creëren."

Lardinois gaf ook een korte geschiedenis van WaveNet en hoe het de uiterst belangrijke reactiesnelheid aanpakte.

"Google sprak ongeveer een jaar geleden voor het eerst over WaveNet. Sindsdien het verplaatste deze tools naar een nieuwe infrastructuur die bovenop de eigen Tensor Processing Units van het bedrijf zit. Hierdoor kan het deze audiogolfvormen genereren 1, 000 keer sneller dan voorheen, dus het genereren van een seconde audio duurt nu slechts 50 milliseconden."

Hiermee kunnen ontwikkelaars natuurlijk klinkende spraak synthetiseren met 30 stemmen. Bovendien, het is beschikbaar in meerdere talen en varianten. De site zei dat het 32 ​​stemmen in 12 talen en varianten ondersteunt.

(Deze schrijver probeerde het in twee talen uit. Het leek in beide pogingen uitstekend.)

Frederic Lardinois in TechCrunch wees erop dat ontwikkelaars de pitch kunnen aanpassen, spreeksnelheid en volumetoename van de MP3- of WAV-bestanden die de service genereert.

Aharon gaf in de blog een link voor prijsinformatie en voor documentatie.

© 2018 Tech Xplore