Hvordan Kunstig Intelligens Fungerer: Talegjenkjenning - Alternativ Visning

Innholdsfortegnelse:

Hvordan Kunstig Intelligens Fungerer: Talegjenkjenning - Alternativ Visning
Hvordan Kunstig Intelligens Fungerer: Talegjenkjenning - Alternativ Visning

Video: Hvordan Kunstig Intelligens Fungerer: Talegjenkjenning - Alternativ Visning

Video: Hvordan Kunstig Intelligens Fungerer: Talegjenkjenning - Alternativ Visning
Video: Kunstig Intelligens - Behandling af sygdomme 2024, September
Anonim

Hver av oss blir møtt med et så mystisk fenomen som kunstig intelligens i hverdagen - det er han som lar stemmeassistenter og søkemotorer gjenkjenne menneskelig tale og gjette brukerens ønsker. I dag skal vi snakke om nøyaktig hvordan denne teknologien er ordnet og hvilke utsikter som venter på dette utviklingsområdet i løpet av en nær fremtid.

Kunstig intelligens er et veldig bredt begrep, der mange algoritmer allerede eksisterer og fremdeles er under utvikling, designet for å utføre et bredt spekter av praktiske oppgaver. Men hva er moderne kunstige intelligensprogrammer faktisk i stand til, og hvilke prinsipper blir de ført etter under arbeidet? I dag skal vi snakke om en av nøkkelfunksjonene i maskinsinnet, som hver av oss regelmessig møter i hverdagen - stemmeassistenters evne til å gjenkjenne menneskelig tale.

Stemme gjenkjenning

For å måle stemmen bruker programmet et antall lydparametere: frekvensen og lengden på lydbølgen på et bestemt tidspunkt. Når du for eksempel chatter med den populære stemmeassistenten Alexa, deler programvaren stemmen din i 25-millisekund lysbilder, og konverterer deretter hvert av segmentene til digitale signaturer. Etter det blir signaturblokkene sammenlignet med den interne katalogen med programlyder til antall kamper er høyt nok til at AI kan "oversette" tallene til et alfabetisk spørsmål som det forstår.

Image
Image

Se på telefonskjermen mens du bruker Siri eller Google Assistant, så ser du at ordforrådet endres når du snakker ordene. Dette skjer på grunn av det faktum at programvaren med hvert neste "trinn" sammenligner det oppnådde resultatet med den interne databasen og bygger ord avhengig av kampene. I følge Rohit Prasad, sjefforsker ved Amazons Alexa-divisjon, lærer "språkmodellen mange milliarder ord i form av tekst." Ordrekkefølge spiller også en viktig rolle: dette kan også merkes ved hjelp av den vanlige Google-søkemotoren, som noen ganger gir forskjellige data for identiske spørsmål, der bare et par ord er omorganisert.

Salgsfremmende video:

Perspektiver av talegjenkjenning

Alan Black fra Carnegie Institute for Language Technology argumenterer for at for alle fagpersoner i store selskaper, er det mest interessante å finne grensen for sitt eget system. "Når programmet sier 'Jeg kan ikke gjøre dette,' blir situasjonen veldig interessant," spøker han. Imidlertid er dette faktisk tilfelle: å svare på uforutsigbare brukerforespørsler er til og med en av hovedoppgavene som studentkretser som konkurrerer om Alexa-prisen - og dette er så mye som $ 2,5 millioner - undersøker. Oppgaven deres er å lage en chatbot designet for å kommunisere med mennesker som stiller konsistente og meningsfulle spørsmål. Informasjon i dette tilfellet oppdateres hvert 20. minutt. Høres ut som en ganske enkel oppgave selv for en gjennomsnittlig programmerer,men i praksis er kommunikasjonen av programmet med virkelige mennesker alltid forbundet med avvik fra temaet dialog, spontane fraser og andre brudd. Et program som lærer å jobbe med dem så vel som en ekte person, vil være et stort gjennombrudd for hele AI-bransjen.

Vasily Makarov

Anbefalt: