Når Vil Kunstig Intelligens Begynne å Tale Serien - Alternativ Visning

Innholdsfortegnelse:

Når Vil Kunstig Intelligens Begynne å Tale Serien - Alternativ Visning
Når Vil Kunstig Intelligens Begynne å Tale Serien - Alternativ Visning

Video: Når Vil Kunstig Intelligens Begynne å Tale Serien - Alternativ Visning

Video: Når Vil Kunstig Intelligens Begynne å Tale Serien - Alternativ Visning
Video: Kunstig intelligens vil løse nogle af de vigtigste samfundsudfordringer 2024, Mars
Anonim

Russiske forleggere eksperimenterer allerede med maskininnspilling av lydbøker; i fremtiden kan kunstig intelligens bli betrodd å oversette serier og dikte dem med stemmene til deres favorittskuespillere. Om funksjonene i slike teknologier og hvor lang tid det vil ta å lage dem.

Muntlig tale blir skrevet

På YouTube lages automatiske undertekster for videoer av stemmegjenkjenning og tale-til-tekst-oversettelsesprogramvare. Det er basert på selvlærende nevrale nettverk. Dette alternativet er mer enn ti år gammelt, men resultatet er fremdeles langt fra ideelt. Oftere enn ikke kan du bare fange den generelle betydningen av det som ble sagt. Hva er vanskeligheten?

La oss si, forklarer Andrey Filchenkov, leder av Machine Learning-laboratoriet ved ITMO University, at vi bygger en algoritme for talegjenkjenning. Dette krever opplæring av et nevralt nettverk på en stor datasamling.

Det vil ta hundrevis, tusenvis av timers taleopptak og riktig sammenligning med tekster, inkludert markering av begynnelse og slutt på setninger, endring av samtalepartnere og så videre. Dette kalles innhegningen. Jo større den er, jo bedre er opplæringen av det nevrale nettverket. Virkelig store korpora er blitt opprettet for det engelske språket, så anerkjennelse er mye bedre. Men for russisk eller, for eksempel, spansk, er det mye mindre data, og for mange andre språk er det ingen data i det hele tatt.

"Og resultatet er passende," konkluderer forskeren.

"I tillegg vurderer vi betydningen av et ord eller en setning i en film ikke bare etter lyd, men også skuespillerens intonasjon og ansiktsuttrykk er viktig. Hvordan tolker du dette? " - legger Sergey Aksenov til, førsteamanuensis ved informasjonsteknologisk avdeling ved Tomsk polytekniske universitet.

Salgsfremmende video:

“Hvordan håndtere funksjonene i flytende tale? Fuzzy artikulasjon, sketchiness, interjeksjoner, pauser? Avhengig av dette, endres betydningen tross alt, som i "du kan ikke benådes". Hvordan lære en maskin å bestemme hvor høyttaleren har komma? Og i poesi? " - lister Marina Bolsunovskaya, leder for laboratoriet "Industrial streaming data processing systems" i NTI SPbPU Center.

De mest vellykkede prosjektene er ifølge eksperten i trange områder. Et system for å anerkjenne den profesjonelle talen til leger som bruker medisinske termer, utviklet av RTC-gruppen av selskaper, hjelper leger med å føre en sykehistorie.

“Her kan du tydelig skissere emneområdet og fremheve stikkord i tale. Legen vektlegger spesifikt visse seksjoner med intonasjon: pasientklager, diagnose,”presiserer Bolsunovskaya.

Et annet problem påpekes av Mikhail Burtsev, leder for laboratoriet for nevrale systemer og dyp læring ved MIPT. Faktum er at maskinen hittil er mer vellykket med å gjenkjenne tekst når en person snakker enn flere, som i filmer.

Oversettelse med kontekst

La oss ta en engelskspråklig video, for eksempel et kutt fra TV-serien "Game of Thrones", og slå på automatiske russiske undertekster. Det vi ser vil sannsynligvis få oss til å le.

Fortsatt fra * Game of Thrones *
Fortsatt fra * Game of Thrones *

Fortsatt fra * Game of Thrones *.

I maskinoversettelse har imidlertid teknologien oppnådd imponerende suksess. Så Google Oversetter tekster på vanlige språk ganske tålelig, ofte er det bare minimal redigering som kreves.

Fakta er at den nevrale nettverksoversetteren også er trent på et stort utvalg av innledende, korrekt merkede data - et parallelt korpus, som viser hvordan hver setning på originalspråket skal se ut på russisk.

Å bygge slike bygninger er veldig arbeidskrevende, dyrt og tidkrevende, det tar måneder og år. For å trene et nevralt nettverk trenger vi tekster på størrelse med biblioteket i Alexandria. Modellene er universelle, men mye avhenger av språket. Hvis du leverer mye data, for eksempel i Avar, og oversettelsen vil være av høy kvalitet, men for Avar er det rett og slett ingen slik datamengde, sier Andrey Filchenkov.

"Oversettelse er et eget produkt som er relatert til originalen, men som ikke tilsvarer det," sier Ilya Mirin, direktør for School of Digital Economy ved Far Eastern Federal University. - Et typisk eksempel er Dmitrij Puchkovs (Goblins) oversettelser av utenlandske filmer på 90-tallet. Først etter arbeidet hans ble det klart hva som skjedde der. Vi kunne ikke finne ut noe tilstrekkelig fra VHS-versjonene. Alternativt kan du prøve å oversette til et språk du kjenner godt, noe fra Mesteren og Margarita. For eksempel “i en svart kappe med et blodig fôr”. Maskinen kan ikke gjøre det."

Nevrale nettverk lærer godt av mange typiske eksempler, men filmer er fulle av komplekse betydninger og konnotasjoner, vitser som ikke er tilgjengelige for maskinen - den kan ikke skille dem.

I hver episode av den animerte serien Futurama er det en henvisning til den klassiske amerikanske kinoen - Casablanca, Roman Holiday og så videre. I slike øyeblikk, for å fange og pakke inn betydningen for de som ikke har sett disse filmene, trenger oversetteren å komme med en nær analog fra russisk sammenheng. En feil maskinoversettelse kan være veldig nedslående for seeren, fortsetter Mirin.

Etter hans mening er kvaliteten på maskinoversettelse nær 80 prosent, resten er spesifisitet som må legges til manuelt, med eksperter. "Og hvis 20-30 prosent av setningene krever manuell korreksjon, hva er da bruken av maskinoversettelse?" - sier forskeren.

"Oversettelse er det mest problematiske stadiet," sier Sergey Aksenov enig. - Alt avhenger av semantikk og kontekst. De tilgjengelige verktøyene kan brukes til oversettelse og maskinstemme, for eksempel barnekartikler med enkelt ordforråd. Men med tolkningen av fraseologiske enheter, egennavn, ord som henviser seerne til noen kulturelle realiteter, oppstår det vanskeligheter."

I filmer og videoer er konteksten alltid visuell og ledsages ofte av musikk og støy. Vi spekulerer fra bildet hva helten snakker om. Talen omgjort til tekst er blottet for denne informasjonen, så oversettelse er vanskelig. Dette er situasjonen for oversettere som jobber med tekstundertekst uten å se filmen. De tar ofte feil. Maskinoversettelse er den samme historien.

AI stemmer tale

For å dubbe en serie oversatt til russisk, trenger du en algoritme for å generere naturlig tale fra tekst - en synthesizer. De er opprettet av mange IT-selskaper, inkludert Microsoft, Amazon, Yandex, og de gjør det ganske bra.

I følge Andrey Filchenkov tok det for et par år siden et minutt med dubbing av en talesynthesizer flere timer, nå har behandlingshastigheten økt kraftig. Oppgaven med talesyntese for noen områder der det kreves nøytrale dialoger løses ganske bra.

Mange tar allerede for gitt en samtale med en robot på telefonen, utførelse av kommandoer fra en bilnavigator, en dialog med Alice i en Yandex. Drive-bil. Men for å overføre TV-serier er disse teknologiene ennå ikke tilstrekkelige.

“Problemet er følelser og skuespill. Vi har lært å gjøre maskinen stemmen menneskelig, men slik at den fremdeles høres passende ut i sammenhengen og inspirerer tillit er en lang vei unna. Dårlig stemmeskuespill kan lett drepe oppfatningen av en film,”sa Filchenkov.

I følge Mikhail Burtsev er talesyntese ganske reell. Dette er imidlertid beregningsintensivt og kan ikke gjøres i sanntid til en fornuftig pris.

“Det er algoritmer som syntetiserer tale som ligner på en bestemt aktørs. Dette er timbre, og måten å snakke på, og mye mer. Så enhver utenlandsk skuespiller vil faktisk snakke russisk,”spår Burtsev. Han forventer merkbar fremgang de kommende årene.

Sergei Aksenov gir fem til ti år på å utvikle verktøy for å oversette og kopiere komplekse verk fra de vanligste språkene som engelsk. Forskeren siterer eksemplet på Skype, som for flere år siden demonstrerte muligheten for å organisere nettkurs for skolebarn som snakker forskjellige språk. Men selv da vil ikke systemet være ideelt, det vil stadig måtte lære: få ordforråd, ta hensyn til den kulturelle konteksten.

Anbefalt: