Det Nevrale Nettverket Hørte Menneskers Stemmer Og Tegnet Portrettene Deres - Alternativ Visning

Innholdsfortegnelse:

Det Nevrale Nettverket Hørte Menneskers Stemmer Og Tegnet Portrettene Deres - Alternativ Visning
Det Nevrale Nettverket Hørte Menneskers Stemmer Og Tegnet Portrettene Deres - Alternativ Visning

Video: Det Nevrale Nettverket Hørte Menneskers Stemmer Og Tegnet Portrettene Deres - Alternativ Visning

Video: Det Nevrale Nettverket Hørte Menneskers Stemmer Og Tegnet Portrettene Deres - Alternativ Visning
Video: Stemming in NLP | Porter, Snowball, Lancaster Stemmers 2024, Kan
Anonim

Nylig har nevrale nettverk vært overraskende med sine ferdigheter - kunne du trodd for ti år siden at en datamaskin kunne "animere" portretter av Dostojevskij og Marilyn Monroe? Forbered deg på å bli overrasket videre, fordi forskere ved MIT har opprettet et Speech2Face nevralt nettverk som er i stand til å tegne portretter av mennesker bare ved å lytte til stemmene deres. Teknologien er langt fra ideell, men dens evne til å bestemme kjønn, nasjonalitet og alder til en person er imponerende.

For å trene det nevrale nettverket ble AVSpeech-settet brukt med en million korte videoer med tusenvis av talende mennesker. Spor med video og lyd skilles fra hverandre, slik at systemet var i stand til å studere hver type materiale så detaljert som mulig. I den første fasen av arbeidet studerte VGG-Face-algoritmen videofragmenter og skapte portretter av menneskene som vises på dem i full ansikt og med et nøytralt ansiktsuttrykk. En annen del av algoritmen studerte spektrogrammet til stemmen og brukte ytterligere endringer på de resulterende portrettene - som et resultat ble det oppnådd et omtrentlig portrett av hver person som snakket.

Et nevralt nettverk for å lage stemmebaserte portretter er allerede en realitet

Hvis du sammenligner ansikts ansikt med en video og alternativet foreslått av algoritmen, kan du finne mange forskjeller. Imidlertid forsikrer forskerne at de i utgangspunktet ikke ønsket å lage det mest like portrettet av en person - mange faktorer påvirker tonen og intonasjonen til en menneskelig stemme, slik at de uansett ikke ville få et ideelt resultat. Men det nevrale nettverket gjør en utmerket jobb med det som er viktig for forskere, nemlig den nøyaktige bestemmelsen av kjønn, nasjonalitet og alder.

Image
Image

Forfatterne av arbeidet bemerket at algoritmen for øyeblikket er svak når det gjelder å bestemme alderen, men de kan forbedre nøyaktigheten. Det ble også funnet at algoritmen bedre gjenskaper europeiske og asiatiske ansikter, men dette skyldes bare at treningsvideoene hadde et ulikt antall ansikter fra forskjellige nasjonaliteter.

Salgsfremmende video:

Hvorfor trenger du et nevralt nettverk?

Hvordan kan denne teknologien være nyttig i fremtiden? Alternativt kan det ved hjelp av det opprettes en tjeneste en dag der en brukers virtuelle avatar opprettes automatisk, basert på stemmen hans. Den nye studien har også store vitenskapelige fordeler - ved å studere dataene kan forskere finne forholdet mellom en persons utseende og stemmen hans. Du kan lytte til stemmer og se på portretter gjenskapt på deres grunnlag på prosjektets hjemmeside.

Ramis Ganiev

Anbefalt: