science >> Wetenschap >  >> Elektronica

Upgraded Deep Voice kan elke stem in slechts enkele seconden nabootsen

Sprekeraanpassing en sprekercoderingsbenaderingen voor training, klonen en audiogeneratie. Krediet:arXiv:1802.06006 [cs.CL]

Via whitepaper die ze hebben geüpload naar de arXiv preprint-server, een team van Baidu (China's antwoord op Google) heeft een upgrade aangekondigd van hun tekst-naar-spraaktoepassing genaamd Deep Voice. Nutsvoorzieningen, in plaats van een half uur of langer te nemen om iemands stem te analyseren en te repliceren, het systeem kan het in minder dan een minuut. Het op neurale netwerken gebaseerde systeem maakt deel uit van een inspanning van het team van Baidu om machines meer als mensen te laten klinken als ze tegen ons 'spreken'.

Het systeem bestaat uit twee delen. De eerste omvat het opnemen van spraakvoorbeelden zodat het systeem kan leren hoe de stem van het onderwerp klinkt. Het tweede deel leest door de gebruiker gedefinieerde tekst hardop voor in de stem van het onderwerp.

Verschillende groepen hebben gewerkt aan projecten die gericht zijn op het repliceren van het geluid van de stem van een individuele persoon, ogenschijnlijk om robotassistenten te laten klinken als echte menselijke assistenten. Dus, een programma dat tekst omzet in woorden die op jou lijken, jouw buurman, Van Donald Trump of de koningin van Engeland wordt niet verwacht dat ze veel bieden op het gebied van een eindproduct, hoewel Baidu wel suggereert dat het kan worden gebruikt door mensen die het gebruik van hun stem zijn kwijtgeraakt. In plaats daarvan, het is bedoeld als een opstap naar grotere dingen. Het nieuwe systeem, het team meldt, werkt optimaal wanneer 100 stemvoorbeelden van vijf seconden worden gegeven. Het kan ook een stem manipuleren, mensen laten horen hoe ze zouden kunnen klinken, bijvoorbeeld, met een Brits accent, of als iemand van het andere geslacht. Het wordt ook steeds beter in het nabootsen van stemmen, en is nu in staat om spraakherkenningssoftware 95 procent van de tijd voor de gek te houden - en een menselijke test gaf het systeem een ​​gemiddelde beoordeling van 3,16 uit 4.

Maar, zoals velen in de pers hebben opgemerkt, de technologie kan problemen veroorzaken. Getapete ondervragingen door de politie zouden nutteloos kunnen worden als iemand met een smartphone hetzelfde gesprek zou kunnen genereren. Er is ook het probleem van identiteitsdiefstal. Als een dief je gegevens en je stem kan stelen, je krijgt het misschien nooit meer terug. Of overweeg politieke agenten die nep-opnamen vrijgeven van politici die gesprekken voeren die een verkiezing kunnen beïnvloeden.

© 2018 Tech Xplore