Nevralt Nettverk Har Lært å Generere Videoer Basert På Beskrivelsen Av - Alternativ Visning

Nevralt Nettverk Har Lært å Generere Videoer Basert På Beskrivelsen Av - Alternativ Visning
Nevralt Nettverk Har Lært å Generere Videoer Basert På Beskrivelsen Av - Alternativ Visning

Video: Nevralt Nettverk Har Lært å Generere Videoer Basert På Beskrivelsen Av - Alternativ Visning

Video: Nevralt Nettverk Har Lært å Generere Videoer Basert På Beskrivelsen Av - Alternativ Visning
Video: Будем зарабатывать... 2024, Kan
Anonim

Kunstig intelligens lager skriptede videoer - så langt korte og uskarpe, men en dag vil den alene erstatte et helt filmstudio.

Nevrale nettverk er allerede ganske gode (og i mange tilfeller bedre enn mennesker) til å gjenkjenne mønstre i et bilde og er i stand til å beskrive generelle termer hele scener. Generative nevrale nettverk utfører omvendt transformasjon og kan danne et bilde basert på beskrivelsen, eller forutsi neste ramme basert på de forrige.

De belgiske utviklerne har gått enda lenger, og kombinert disse mulighetene til et enkelt system som skaper videoer "ut av ingenting", basert på deres egen erfaring med maskinlæring og manus tekst. Tinne Tuytelaars snakket om dette på et møte i Association for the Advancement of Artificial Intelligence (AAAI) som ble holdt i USA.

Neuralnettverket fungerer i to trinn - ifølge Tinne, som om å imitere den kreative prosessen til en person: på det første trinnet dannes en uskarp, omtrentlig "skisse" av hver ramme, hvoretter detaljer blir spesifisert og lagt til. En av de viktige delene av et slikt system er et diskriminerende nevralt nettverk, som sammenligner resultatet med "ekte" videoer som passer til et gitt scenario, og lar deg vurdere kvaliteten og forbedre arbeidet med den generative delen av systemet.

Neuralnettverket ble trent på 10 scener ("å spille golf på gresset", "kitesurfing i sjøen", etc.) og lært å skille handlinger og omstendigheter fra hverandre, og kunne også kombinere dem på en gitt måte, lage videoer, for eksempel "Golf i bassenget":

Image
Image

eller "seiling i snøen":

Image
Image

Salgsfremmende video:

Naturligvis er kvaliteten på slike animasjoner fremdeles langt fra akseptabel: "videoer" som varer omtrent et sekund, består av bare 32 bilder med dimensjoner på 64x64 piksler.

Men med samme tillit er det mulig å garantere at disse tallene raskt blir bedre, for ikke så lenge siden kinoen i seg selv bare kunne skryte av et gjørmete, rykende og stumt bilde. Hvis et slikt nevralt nettverk kan gjøres veldig raskt og effektivt, kan Hollywood komme til en slutt: Det vil være nok til å ta manuset og filmen er klar. Denne muligheten vil være nyttig for å generere store sett for å trene andre nevrale nettverk, og for å lage nye algoritmer for komprimering og overføring av streamingvideo.

Sergey Vasiliev

Anbefalt: