Nevralt Nettverk Ble Lært å "animere" Portretter Basert På Bare Ett Statisk Bilde - Alternativ Visning

Nevralt Nettverk Ble Lært å "animere" Portretter Basert På Bare Ett Statisk Bilde - Alternativ Visning
Nevralt Nettverk Ble Lært å "animere" Portretter Basert På Bare Ett Statisk Bilde - Alternativ Visning
Anonim

Russiske spesialister fra Samsung AI Center-Moscow Center for Artificial Intelligence har i samarbeid med ingeniører fra Skolkovo Institute of Science and Technology utviklet et system som er i stand til å lage realistiske animerte bilder av menneskelige ansikter basert på bare noen få statiske menneskelige rammer. Vanligvis, i dette tilfellet, er bruk av store databaser med bilder nødvendig, men i eksemplet som ble presentert av utviklerne, ble systemet trent til å lage et animert bilde av et menneskelig ansikt fra bare åtte statiske rammer, og i noen tilfeller var det nok. For mer informasjon om utvikling, se en artikkel publisert på ArXiv.org online depot.

Image
Image

Som regel er det ganske vanskelig å gjengi en fotorealistisk personalisert modul av et menneskelig ansikt på grunn av den høye fotometriske, geometriske og kinematiske kompleksiteten til å reprodusere det menneskelige hodet. Dette forklares ikke bare av kompleksiteten ved å modellere ansiktet som en helhet (for dette er det et stort antall tilnærminger til modellering), men også av kompleksiteten i å modellere visse funksjoner: munnhulen, håret og så videre. Den andre kompliserende faktoren er vår tendens til å fange selv mindre feil i den ferdige modellen med menneskelige hoder. Denne lave toleransen for modelleringsfeil forklarer den nåværende forekomsten av ikke-fotorealistiske avatarer brukt i telekonferanser.

I følge forfatterne er systemet, kalt Fewshot-læring, i stand til å lage svært realistiske modeller for snakkende hoder til mennesker og til og med portrettmalerier. Algoritmene syntetiserer bildet av hodet til den samme personen med linjene i ansiktsreferansen hentet fra et annet fragment av videoen, eller ved bruk av referansepunktene til ansiktet til en annen person. Som en kilde til materiale for opplæring av systemet, brukte utviklerne en omfattende database med videobilder av kjendiser. For å få et mest mulig nøyaktig snakkehode, trenger systemet å bruke mer enn 32 bilder.

For å lage mer realistiske animerte ansiktsbilder, brukte utviklerne tidligere utviklinger i generativ adversarial modellering (GAN, der et nevralt nettverk tenker ut detaljene i et bilde, faktisk blir kunstner), samt en maskinell metallæringsmetode, der hvert element i systemet er opplært og designet for å løse noen spesifikk oppgave.

Metallæringsskjema
Metallæringsskjema

Metallæringsskjema.

Image
Image
Image
Image

Salgsfremmende video:

Tre nevrale nettverk ble brukt til å behandle statiske bilder av folks hoder og gjøre dem om til animerte: Embedder (implementeringsnettverk), Generator (generasjonsnettverk) og Discriminator (diskriminatornettverk). De første partisjonene hodebildene (med omtrentlige ansiktslandemerker) til innebygningsvektorer, som inneholder informasjon uavhengig av posituren, det andre nettverket bruker ansiktslandemerker oppnådd av innebygningsnettverket og genererer nye data basert på dem gjennom et sett med omsluttende lag som gir motstand mot endringer i skala, forskyvninger, svinger, endring av vinkel og andre forvrengninger av det originale ansiktsbildet. En nettverksdiskriminator brukes til å vurdere kvaliteten og autentisiteten til de to andre nettverkene. Som et resultat forvandler systemet landemerker for en persons ansikt til realistiske, personlige bilder.

Image
Image
Image
Image

Utviklerne understreker at systemet deres er i stand til å initialisere parametrene til både generatornettverket og diskrimineringsnettverket individuelt for hver person på bildet, slik at læringsprosessen kan være basert på bare noen få bilder, noe som øker hastigheten til tross for behovet for å velge flere titalls millioner parametere.

Nikolay Khizhnyak

Anbefalt: