Nevralt Nettverk Ble Lært å Kopiere Den Menneskelige Stemmen Nesten Perfekt - Alternativ Visning

Innholdsfortegnelse:

Nevralt Nettverk Ble Lært å Kopiere Den Menneskelige Stemmen Nesten Perfekt - Alternativ Visning
Nevralt Nettverk Ble Lært å Kopiere Den Menneskelige Stemmen Nesten Perfekt - Alternativ Visning

Video: Nevralt Nettverk Ble Lært å Kopiere Den Menneskelige Stemmen Nesten Perfekt - Alternativ Visning

Video: Nevralt Nettverk Ble Lært å Kopiere Den Menneskelige Stemmen Nesten Perfekt - Alternativ Visning
Video: CS50 2015 - Week 9 2024, April
Anonim

I fjor delte kunstig intelligensfirma DeepMind detaljer om det nye prosjektet WaveNet, et dypt lærende nevralt nettverk som brukes til å syntetisere realistisk menneskelig tale. Nylig ble det gitt ut en forbedret versjon av denne teknologien, som skal brukes som grunnlag for den digitale mobilassistenten Google Assistant.

Et stemmesyntesesystem (også kjent som en tekst-til-tale-funksjon, TTS) er vanligvis bygd rundt en av to grunnleggende metoder. Den konkatenative (eller samlingen) metoden innebærer konstruksjon av fraser ved å samle individuelle stykker innspilte ord og deler som tidligere er spilt inn med involvering av en stemmeskuespiller. Den største ulempen med denne metoden er behovet for å stadig erstatte lydbiblioteket når det oppdateres eller endres.

En annen metode kalles parametrisk TTS, og funksjonen er bruken av parametersett som datamaskinen genererer ønsket setning med. Ulempen med metoden er at oftest resultatet manifesterer seg i form av urealistisk eller såkalt robotlyd.

WaveNet produserer derimot lydbølger fra bunnen av ved hjelp av et konvolusjonelt nevralt nettverkssystem der lyd genereres i flere lag. For det første, for å trene plattformen for å syntetisere "live" tale, blir den "matet" en enorm mengde prøver, mens den legger merke til hvilke lydsignaler som virker realistiske og hvilke ikke. Dette gir stemmesyntesen muligheten til å reprodusere naturalistisk intonasjon og til og med detaljer som smacking lepper. Avhengig av hvilke taleprøver som kjøres gjennom systemet, lar dette det utvikle en unik "aksent", som på sikt kan brukes til å skape mange forskjellige stemmer.

Skarp på tungen

Den største begrensningen av WaveNet-systemet var kanskje at det krevde en enorm mengde datakraft for å kjøre, og selv når denne betingelsen ble oppfylt, skilte den seg ikke i hastighet. For eksempel tok det omtrent 1 sekund tid å generere 0,02 sekunder lyd.

Etter et års arbeid fant DeepMind-ingeniører fremdeles en måte å forbedre og optimalisere systemet slik at det nå er i stand til å produsere en rå lyd på ett sekund på bare 50 millisekunder, noe som er 1000 ganger raskere enn dets opprinnelige evner. Spesialistene klarte dessuten å øke lydsamplingsfrekvensen fra 8-bit til 16-bit, noe som hadde en positiv effekt på testene som involverte lyttere. Disse suksessene har banet vei for WaveNet å integrere seg i forbrukerprodukter som Google Assistant.

Salgsfremmende video:

For tiden kan WaveNet brukes til å generere engelske og japanske stemmer gjennom Google Assistant og alle plattformer som bruker denne digitale assistenten. Siden systemet kan lage en spesiell type stemmer, avhengig av hvilket sett med prøver som ble gitt det til trening, vil Google i nær fremtid sannsynligvis introdusere støtte for å syntetisere realistisk tale i WaveNet på andre språk, inkludert å ta hensyn til dem. lokale dialekter.

Talegrensesnitt blir mer og mer vanlig på et bredt utvalg av plattformer, men deres utpregede unaturlige karakter av lyden slår av mange potensielle brukere. DeepMinds innsats for å forbedre denne teknologien vil helt sikkert bidra til en bredere bruk av slike talesystemer, samt forbedre brukeropplevelsen fra deres bruk.

Eksempler på engelsk og japansk syntetisert tale ved å bruke det nevrale nettverket WaveNet kan du finne ved å følge denne lenken.

Nikolay Khizhnyak

Anbefalt: