Drømmer Nevroner Om Elektriske Sauer? Skaperen Av De Første Nevrale Nettverkene Fortalte Om Deres Evolusjon Og Fremtiden - Alternativ Visning

2024 Forfatter: Keith Bush | [email protected]. Sist endret: 2023-12-16 14:37

Jeffrey Hinton er en medskaper av konseptet dyp læring, en Turing Award-vinner i 2019 og en Google-ingeniør. Forrige uke, under en I / O-utviklerkonferanse, intervjuet Wired ham og diskuterte hans fascinasjon for hjernen og hans evne til å modellere en datamaskin basert på hjernens nevrale struktur. I lang tid ble disse ideene ansett som sprø. En interessant og underholdende samtale om bevissthet, Hintons fremtidsplaner og om datamaskiner kan læres å drømme.

Hva vil skje med nevrale nettverk?

La oss starte med dagene da du skrev de aller første, veldig innflytelsesrike artiklene. Alle sa: "Det er en smart idé, men vi kan virkelig ikke designe datamaskiner på denne måten." Forklar hvorfor du insisterte på deg selv, og hvorfor du var så sikker på at du fant noe viktig.

Det syntes for meg at hjernen ikke kunne fungere på noen annen måte. Han må jobbe ved å studere styrken i forbindelsene. Og hvis du vil få en enhet til å gjøre noe smart, har du to alternativer: du enten programmerer den eller den lærer. Og ingen programmerte folk, så vi måtte studere. Denne metoden måtte være riktig.

Forklar hva nevrale nettverk er. Forklar det originale konseptet

Du tar relativt enkle behandlingselementer som veldig vagt ligner nevroner. De har innkommende forbindelser, hver forbindelse har en vekt, og denne vekten kan endres under trening. Hva nevronen gjør er å ta handlingene på forbindelsene multiplisert med vektene, oppsummere dem og deretter bestemme om du vil sende dataene. Hvis summen er skrevet stor nok, gir den en utgang. Hvis beløpet er negativt, sender det ikke noe. Det er alt. Alt du trenger å gjøre er å koble en sky av disse nevronene til vekter og finne ut hvordan du kan endre disse vektene, og så vil de gjøre hva som helst. Det eneste spørsmålet er hvordan du vil endre vekten.

Salgsfremmende video:

Når skjønte du at dette er en grov fremstilling av hvordan hjernen fungerer?

Å, ja, alt var opprinnelig ment. Designet for å ligne hjernen på jobb.

Så på et tidspunkt i karrieren din begynte du å forstå hvordan hjernen fungerer. Kanskje var du tolv år gammel, kanskje femogtyve. Når bestemte du deg for å prøve å modellere datamaskiner som hjerner?

Ja umiddelbart. Det var hele poenget. Hele denne ideen var å lage et læringsapparat som lærer som hjernen, i følge folks ideer om hvordan hjernen lærer, ved å endre styrken i forbindelsene. Og det var ikke min idé, Turing hadde den samme ideen. Selv om Turing oppfant mye av grunnlaget for standard informatikk, mente han at hjernen var et uorganisert apparat med tilfeldige vekter og brukte forsterkningslæring for å endre forbindelser, slik at han kunne lære hva som helst. Og han trodde at dette er den beste veien til etterretning.

Og du fulgte Tirings ide om at den beste måten å bygge en maskin på er å designe den som den menneskelige hjernen. Slik fungerer den menneskelige hjernen, så la oss lage en lignende maskin

Ja, ikke bare Turing trodde det. Mange trodde det.

Når kom de mørke tidene? Når skjedde det at andre mennesker som jobbet med det og trodde Turinges ide å være riktig, begynte å slå seg ned igjen, og du fortsatte å bøye linjen din?

Det har alltid vært en håndfull mennesker som trodde uansett hva, spesielt innen psykologi. Men blant datavitere antar jeg på 90-tallet at det skjedde at datasettene var ganske små, og datamaskiner var ikke så raske. Og med små datasett presterte andre metoder som støttevektormaskiner litt bedre. De var ikke så store flau. Så det hele var trist fordi vi på 80-tallet utviklet en metode for ryggformering, som er veldig viktig for nevrale nettverk. Vi trodde han ville løse alt. Og de ble forundret over at han ikke hadde bestemt seg for noe. Spørsmålet var egentlig på en skala, men da visste vi ikke det.

Hvorfor trodde du at det ikke fungerte?

Vi trodde at det ikke fungerte fordi vi ikke hadde helt riktige algoritmer og ikke helt riktige objektive funksjoner. Jeg tenkte lenge at dette skyldes at vi prøvde å gjøre veiledet læring når du merket dataene, og vi måtte gjøre uovervåket læring når læring gjøres på umerkede data. Det viste seg at spørsmålet stort sett var i en skala.

Det er interessant. Så problemet var at du ikke hadde nok data. Du trodde du hadde riktig datamengde, men merket feil. Så du bare feildiagnostiserte problemet?

Jeg trodde feilen var at vi i det hele tatt bruker etiketter. Det meste av treningen din skjer uten bruk av etiketter, du prøver bare å modellere en struktur i dataene. Jeg tror faktisk fortsatt det. Jeg tror at siden datamaskiner går raskere, hvis datamaskinen er rask nok, så for bedre datasett i en gitt størrelse, er det bedre å trene uten tilsyn. Og når du har fullført uovervåket læring, kan du lære med færre tagger.

Så på 1990-tallet fortsetter du forskningen, du er i akademia, du publiserer fortsatt, men du løser ikke store problemer. Har du noen gang hatt et øyeblikk da du sa: “Du vet hva, det er nok. Vil jeg prøve å gjøre noe annet”? Eller sa du bare deg selv at du ville fortsette å gjøre dyp læring [det vil si begrepet dyp læring, dyp læring av nevrale nettverk

Ja. Noe som dette skal fungere. Jeg mener, forbindelsene i hjernen lærer på noen måte, vi trenger bare å finne ut hvordan. Og det er nok mange forskjellige måter å styrke sammenhenger i læringsprosessen; hjernen bruker en av dem. Det kan være andre måter. Men du trenger definitivt noe som kan styrke disse forbindelsene mens du lærer. Jeg var aldri i tvil om det.

Du har aldri tvilt på det. Når virket det som om det fungerte?

En av de største skuffelsene på 80-tallet var at hvis vi laget nettverk med mange skjulte lag, kunne vi ikke trene dem. Dette stemmer ikke helt, fordi du kan trene relativt enkle prosesser som håndskrift. Men vi visste ikke hvordan vi skulle trene de fleste dype nevrale nettverk. Og rundt 2005 kom jeg på en måte å trene dype nettverk uten tilsyn. Du legger inn data, sier piksler, og trener flere detaljdetektorer, noe som bare forklarte godt hvorfor pikslene var slik de er. Så mater du disse deldetektorene dataene og trener et annet sett med deledetektorer slik at vi kan forklare hvorfor spesifikke deldetektorer har spesifikke korrelasjoner. Du fortsetter å trene lag for lag. Men det mest interessante varsom kan spaltes matematisk og bevist at hver gang du trener et nytt lag, ikke nødvendigvis vil du forbedre datamodellen, men du vil håndtere en rekke hvor god modellen din er. Og det utvalget ble bedre med hvert lag som ble lagt til.

Hva mener du med omfanget av hvor god modellen din er?

Når du har fått modellen, kan du stille spørsmålet: "Hvor uvanlig finner denne modellen disse dataene?" Du viser henne dataene og stiller spørsmålet: "Finner du alt dette som forventet, eller er det uvanlig?" Og dette kunne måles. Og jeg ønsket å få en modell, en god modell som ser på dataene og sier: “Ja, ja. Jeg visste det. Dette er ikke overraskende ". Det er alltid veldig vanskelig å beregne nøyaktig hvor uvanlig en modell vil finne dataene. Men du kan beregne rekkevidden for dette. Vi kan si at modellen vil finne disse dataene mindre uvanlige enn dette. Og det kan vises at etter hvert som flere lag legges til detaljdetektorene, blir modellen dannet, og med hvert lag lagt til når den finner data, blir forståelsesområdet for hvor uvanlig den finner dataene bedre.

Så rundt 2005 gjorde du dette matematiske gjennombruddet. Når begynte du å få de riktige svarene? Hvilke data jobbet du med? Det første gjennombruddet ditt var med taledata, ikke sant?

De var bare håndskrevne tall. Veldig enkelt. Og omtrent på samme tid begynte utviklingen av GPU-er (Graphics Processing Units). Og folk som drev nevrale nettverk, begynte å bruke GPU-er i 2007. Jeg hadde en veldig god student som begynte å bruke GPU-er for å finne veier i flyfoto. Han skrev koden, som deretter ble vedtatt av andre studenter som bruker GPU for å gjenkjenne fonemer i tale. De brukte denne førtreningsideen. Og da forhåndsopplæringen var ferdig, hang de bare taggene på toppen og brukte ryggformering. Det viste seg at det er mulig å lage et veldig dypt nettverk som tidligere ble trent på denne måten. Og da kunne tilbakepropagering brukes, og det fungerte faktisk. I talegjenkjenning fungerte det utmerket. Først imidlertiddet var ikke mye bedre.

Var det bedre enn kommersielt tilgjengelig talegjenkjenning? Omgått av de beste vitenskapelige artikler om talegjenkjenning?

På et relativt lite datasett kalt TIMIT var det litt bedre enn det beste faglige arbeidet. IBM har også gjort mye arbeid.

Folk skjønte raskt at alt dette - siden det omgår standardmodellene som hadde vært i utvikling i 30 år - ville fungere helt fint hvis det ble utviklet litt. Nyutdannede mine gikk til Microsoft, IBM og Google, og Google opprettet veldig raskt en fungerende talegjenkjenning. I 2012 hadde dette arbeidet, som hadde blitt gjort tilbake i 2009, truffet Android. Android er plutselig mye bedre på talegjenkjenning.

Fortell meg om et øyeblikk da du, som har lagret disse ideene i 40 år, har publisert om dette emnet i 20 år, plutselig omgå kollegaene dine. Hvordan er denne følelsen?

Vel, på den tiden hadde jeg bare lagret disse ideene i 30 år!

Rett, ikke sant

Det var en god følelse av at alt dette endelig hadde blitt et reelt problem.

Husker du da du først fikk dataene som indikerte dette?

Ikke.

Greit. Så du får ideen om at dette fungerer med talegjenkjenning. Når begynte du å bruke nevrale nettverk på andre problemer?

Først begynte vi å bruke dem på alle slags andre problemer. George Dahl, som vi opprinnelig jobbet med talegjenkjenning med, brukte dem til å forutsi om et molekyl kunne binde seg til noe og bli en god medisin. Og det var en konkurranse. Han brukte ganske enkelt vår standardteknologi, bygd for talegjenkjenning, for å forutsi medisinaktivitet og vant konkurransen. Det var et tegn på at vi gjør noe veldig allsidig. Så dukket det opp en student som sa:”Du vet, Jeff, denne tingen vil fungere med bildegjenkjenning, og Fei-Fei Li opprettet et passende datasett for det. Det er en offentlig konkurranse, la oss gjøre noe."

Vi fikk resultater som langt overgikk standard datamaskinvisjon. Det var 2012.

Det vil si på disse tre områdene har du utmerket deg: modellering av kjemikalier, tale, tale. Hvor mislyktes du?

Forstår du at tilbakeslag er midlertidige?

Hva skiller områdene der alt fungerer raskest og områdene der det tar lengst? Ser ut som visuell prosessering, talegjenkjenning og noe sånt som de grunnleggende menneskelige tingene vi gjør med sanseoppfatning, regnes som de første hindringene å overvinne, ikke sant?

Ja og nei, fordi det er andre ting vi gjør godt - de samme motoriske ferdighetene. Vi er veldig gode på motorstyring. Hjernen vår er definitivt utstyrt for dette. Og først nå begynner nevrale nettverk å konkurrere med de beste andre teknologiene for dette. De vil vinne til slutt, men nå begynner de bare å vinne.

Jeg tror å tenke, abstrakt tenking er det siste vi lærer. Jeg tror de vil være blant de siste tingene som nevrale nettverk lærer å gjøre.

Så du fortsetter å si at nevrale nettverk til slutt vil seire overalt

Vel, vi er nevrale nettverk. Alt vi kan, de kan.

Det er sant, men den menneskelige hjernen er langt fra den mest effektive datamaskinen som noensinne er bygget

Definitivt ikke.

Definitivt ikke min menneskelige hjerne! Er det en måte å modellere maskiner som er mye mer effektive enn den menneskelige hjernen?

Filosofisk sett har jeg ingen innvendinger mot tanken om at det kan være en helt annen måte å gjøre alt dette på. Kanskje hvis du starter med logikk, prøver å automatisere logikk, komme med noen fancy teorem prover, fornuft, og deretter bestemmer at det er gjennom resonnement at du kommer til visuell oppfatning, kan det være at denne tilnærmingen vil vinne. Men ikke enda. Jeg har ingen filosofisk innvending mot en slik seier. Vi vet bare at hjernen er i stand til det.

Men det er også ting som hjernen vår ikke kan gjøre bra. Betyr dette at nevrale nettverk heller ikke kan gjøre dem bra?

Ganske muligens, ja.

Og det er et eget problem, som er at vi ikke helt forstår hvordan nevrale nettverk fungerer, ikke sant?

Ja, vi forstår egentlig ikke hvordan de fungerer.

Vi forstår ikke hvordan top-down nevrale nettverk fungerer. Dette er et grunnleggende element i hvordan nevrale nettverk fungerer som vi ikke forstår. Forklar dette, og la meg deretter stille meg neste spørsmål: hvis vi vet hvordan det hele fungerer, hvordan fungerer det hele da?

Når du ser på moderne datasynssystemer, er de fleste av dem mest fremtidsrettede; de bruker ikke tilbakemeldingsforbindelser. Og så er det noe annet i moderne datasynssystemer som er veldig utsatt for motstandsfeil. Du kan endre noen få piksler litt, og det som var et pandabilde og fremdeles ser ut som en panda for deg, vil plutselig bli en struts i din forståelse av et nevralt nettverk. Det er klart, metoden for å erstatte piksler er gjennomtenkt på en slik måte at den lurer nevrale nettverket til å tenke på en struts. Men poenget er at det fremdeles er en panda for deg.

Til å begynne med syntes vi at det hele fungerte bra. Men da vi møtte det faktum at de så på en panda og var sikre på at det var en struts, ble vi bekymret. Og jeg tror en del av problemet er at de ikke prøver å rekonstruere fra synspunkter på høyt nivå. De prøver å lære isolert, der bare lagene med detaljdetektorer lærer, og hele målet er å endre vektene for å bli bedre til å finne det riktige svaret. Vi oppdaget nylig, eller Nick Frost, i Toronto, at å legge til gjenoppbygging øker motstandskraft. Jeg tror at i menneskesyn brukes rekonstruksjon til læring. Og fordi vi lærer så mye mens vi gjør gjenoppbygging, er vi mye mer motstandsdyktige mot motstandsangrep.

Du tror at nedstrøms kommunikasjon i et nevralt nettverk lar deg teste hvordan noe blir rekonstruert. Du sjekker det og sørger for at det er en panda, ikke en struts

Jeg tror dette er viktig, ja.

Men hjerneforskere er ikke helt enige i dette?

Hjerneforskere hevder ikke at hvis du har to regioner av cortex i veien for oppfatning, vil det alltid være omvendte forbindelser. De krangler med hva det er for. Det kan være behov for oppmerksomhet, læring eller gjenoppbygging. Eller for alle tre.

Og så vet vi ikke hva tilbakemeldinger er. Bygger du dine nye nevrale nettverk, med utgangspunkt i at … nei, ikke engang - du bygger tilbakemeldinger, fordi det er nødvendig for gjenoppbygging i nevrale nettverk, selv om du ikke en gang forstår hvordan hjernen fungerer?

Ja.

Er dette ikke en gimmick? Det vil si, hvis du prøver å gjøre noe som en hjerne, men du er ikke sikker på om hjernen gjør det?

Ikke egentlig. Jeg er ikke i beregningsmessig nevrovitenskap. Jeg prøver ikke å modellere hvordan hjernen fungerer. Jeg ser på hjernen og sier: "Det fungerer, og hvis vi ønsker å gjøre noe annet som fungerer, må vi se på og bli inspirert av det." Vi er inspirert av nevroner, og bygger ikke en nevral modell. Dermed er hele modellen av nevroner vi bruker inspirert av det faktum at nevroner har mange forbindelser og at de endrer vekter.

Det er interessant. Hvis jeg var en datamaskinforsker som jobbet på nevrale nettverk og ville omgå Jeff Hinton, ville et alternativ være å bygge nedover kommunikasjon og basere den på andre modeller av hjernevitenskap. Basert på trening, ikke gjenoppbygging

Hvis det var bedre modeller, ville du vunnet. Ja.

Det er veldig, veldig interessant. La oss berøre et mer generelt tema. Så kan nevrale nettverk løse alle mulige problemer. Er det gåter i den menneskelige hjernen som nevrale nettverk ikke kan eller ikke vil dekke? For eksempel følelser

Ikke.

Så kjærlighet kan rekonstrueres med et nevralt nettverk? Bevisstheten kan rekonstrueres?

Absolutt. Når du har funnet ut hva disse tingene betyr. Vi er nevrale nettverk, ikke sant? Bevissthet er et spesielt interessant tema for meg. Men … folk vet egentlig ikke hva de mener med dette ordet. Det er mange forskjellige definisjoner. Og jeg synes det er et ganske vitenskapelig begrep. Derfor, hvis du spurte folk for 100 år siden: hva er livet? De ville svare, “Vel, levende ting har livskraft, og når de dør, forlater livskraften dem. Dette er forskjellen mellom levende og døde, enten har du vitalitet eller ikke. Nå har vi ingen livskraft, vi tror at dette konseptet kom før vitenskapen. Og når du først har forstått litt om biokjemi og molekylærbiologi, trenger du ikke lenger livskraft, vil du forstå hvordan det hele fungerer. Og det samme, tror jeg, vil skje med bevissthet. Jeg tror,at bevissthet er et forsøk på å forklare mentale fenomener ved bruk av en enhet. Og denne essensen er det ikke nødvendig. Når du først kan forklare det, kan du forklare hvordan vi gjør alt som gjør mennesker bevisste vesener, forklare de forskjellige betydningene av bevissthet uten å involvere noen spesielle enheter.

Det viser seg at det ikke er noen følelser som ikke kunne skapes? Det er ingen tanke som ikke kan skapes? Det er ingenting menneskesinnet er i stand til, som teoretisk ikke kunne gjenskapes av et fullt fungerende nevralt nettverk når vi faktisk har forstått hvordan hjernen fungerer?

John Lennon sang noe lignende i en av sangene hans.

Er du 100% sikker på dette?

Nei, jeg er Bayesian, så jeg er 99,9% sikker.

Ok, hva er da 0,01%?

Vel, vi kan for eksempel alle være en del av en større simulering.

Greit nok. Så hva lærer vi om hjernen fra arbeidet med datamaskiner?

Vel, jeg tror det vi har lært de siste 10 årene, er interessant at hvis du tar et system med milliarder av parametere og en objektiv funksjon - for eksempel å fylle et gap i en ordrekke - fungerer det bedre enn det burde. Det vil fungere mye bedre enn du kanskje forventer. Du tenker kanskje, og mange mennesker i tradisjonell AI-forskning vil tro at du kan ta et system med en milliard parametere, kjøre det på tilfeldige verdier, måle gradienten til objektivfunksjonen og deretter finpusse det for å forbedre objektivfunksjonen. Du kan tenke at en håpløs algoritme uunngåelig ville bli sittende fast. Men nei, det viser seg at dette er en virkelig god algoritme. Og jo større skala, jo bedre fungerer den. Og denne oppdagelsen var i hovedsak empirisk. Det var selvfølgelig noe teori bak det hele, men funnet var empirisk. Og nå,siden vi fant dette, virker det mer sannsynlig at hjernen beregner gradienten til en eller annen objektiv funksjon og oppdaterer vektene og styrken til den synaptiske forbindelsen for å følge med denne gradienten. Vi trenger bare å finne ut hva denne målfunksjonen er og hvordan den blir verre.

Men vi forsto ikke dette med eksempelet på hjernen? Forstår du ikke saldooppdateringen?

Det var teori. For lenge siden trodde folk at det var mulig. Men i bakgrunnen var det alltid noen informatikere som sa: "Ja, men ideen om at alt er tilfeldig og læring skyldes gradientnedstigning, vil ikke fungere med en milliard parametere, du må koble mye kunnskap." Vi vet nå at dette ikke er tilfelle. Du kan bare legge inn tilfeldige parametere og lære alt.

La oss dykke litt dypere. Når vi lærer mer og mer, vil vi antagelig fortsette å lære mer og mer om hvordan den menneskelige hjernen fungerer når vi gjennomfører massive tester av modeller basert på vår forståelse av hjernens funksjon. Når vi først har forstått alt dette bedre, vil det være et punkt hvor vi i hovedsak rewire hjernen vår til å bli mye mer effektive maskiner?

Hvis vi virkelig forstår hva som skjer, kan vi forbedre noen ting som utdanning. Og jeg tror vi vil forbedre oss. Det ville være veldig rart å endelig forstå hva som skjer i hjernen din, hvordan den lærer og ikke tilpasse seg slik at du lærer bedre.

Hvordan tror du at vi i løpet av et par år vil bruke det vi har lært om hjernen og hvordan dyp læring fungerer for å transformere utdanning? Hvordan vil du endre klasser?

Jeg er ikke sikker på at vi lærer mye om et par år. Jeg tror det vil ta lengre tid å endre utdanning. Men når vi snakker om det, blir [digitale] assistenter ganske smarte. Og når assistenter kan forstå samtaler, kan de snakke med og utdanne barn.

Og i teorien, hvis vi forstår hjernen bedre, kan vi programmere hjelpere til å snakke bedre med barn, basert på hva de allerede har lært

Ja, men jeg tenkte ikke så mye på det. Jeg gjør noe annet. Men alt dette virker ganske likt sannheten.

Kan vi forstå hvordan drømmer fungerer?

Ja, jeg er veldig interessert i drømmer. Jeg er så interessert at jeg har minst fire forskjellige drømmeteorier.

Fortell oss om dem - om den første, andre, tredje, fjerde

For lenge siden var det denne typen ting som het Hopfield-nettverk, og de studerte minner som lokale tiltrekkere. Hopfield fant ut at hvis du prøver å legge for mange minner, blir de rotete. De vil ta to lokale tiltrekkere og kombinere dem til en tiltrekker et sted midt mellom seg.

Så kom Francis Crick og Graham Mitchison og sa at vi kan bli kvitt disse falske lavene ved å lære (det vil si å glemme det vi har lært). Vi slår av datainndata, setter nevrale nettverk i en tilfeldig tilstand, lar det roe seg, sier at det er dårlig, endrer tilkoblingene slik at det ikke faller i denne tilstanden, og dermed kan vi tvinge nettverket til å lagre flere minner.

Så kom Terry Sejnowski og jeg inn og sa: "Se, hvis vi ikke bare har nevronene som holder minner, men en haug med andre nevroner, kan vi finne en algoritme som bruker alle disse andre nevronene for å hjelpe til med å huske minner?" … Som et resultat opprettet vi en Boltzmann maskinlæringsalgoritme. Og Boltzmanns maskinlæringsalgoritme hadde en ekstremt interessant egenskap: Jeg viser dataene, og den går slags gjennom resten av enhetene til den kommer i en veldig lykkelig tilstand, og etter det øker styrken til alle tilkoblinger, basert på det faktum at to enheter er aktive samtidig.

Du bør også ha en fase der du slår av innspillet, lar algoritmen "rasle" og sette ham i en tilstand der han er lykkelig, slik at han fantaserer, og så snart han har en fantasi, sier du: “Ta alle par av nevroner som er aktive og reduserer styrken på forbindelsene."

Jeg forklarer algoritmen for deg som en prosedyre. Men i virkeligheten er denne algoritmen et produkt av matematikk og spørsmålet: "Hvordan trenger du å endre disse forbindelseskjedene, slik at dette nevrale nettverket med alle disse skjulte dataenhetene ikke virker overraskende?" Og det bør også være en annen fase, som vi kaller den negative fasen, når nettverket fungerer uten datainndata og avliser, uansett hvilken tilstand du legger den i.

Vi drømmer i mange timer hver natt. Og hvis du plutselig våkner, kan du si at du bare drømte, fordi drømmen er lagret i korttidsminne. Vi vet at vi ser drømmer i mange timer, men om morgenen, etter å ha våknet, kan vi bare huske den siste drømmen, og vi kan ikke huske de andre, noe som er veldig vellykket, fordi man kunne ta feil av dem for virkeligheten. Så hvorfor husker vi ikke drømmene våre i det hele tatt? I følge Crick er dette meningen med drømmer: å avlære disse tingene. Du lærer litt omvendt.

Terry Seinovski og jeg har vist at dette faktisk er den maksimale sannsynlighetsprosedyren for Boltzmann-maskiner. Dette er den første teorien om drømmer.

Jeg vil gå videre til de andre teoriene dine. Men spørsmålet mitt er: Har du vært i stand til å trene noen av dype læringsalgoritmer til å faktisk drømme?

Noen av de første algoritmene som kunne lære å jobbe med skjulte enheter, var Boltzmann-maskiner. De var ekstremt ineffektive. Men senere fant jeg en måte å jobbe med tilnærminger på, noe som viste seg å være effektivt. Og det fungerte faktisk som drivkraft for gjenopptakelse av arbeid med dyp læring. Dette var ting som trente ett lag med funksjonsdetektorer om gangen. Og det var en effektiv form for Boltzmanns restriktive maskin. Og slik gjorde hun denne typen omvendt læring. Men i stedet for å sovne, kunne hun bare fantasere litt etter hvert datamerk.

Ok, så androider drømmer faktisk om elektriske sauer. La oss gå videre til teorier to, tre og fire

Teori to ble kalt Wake Sleep Algoritm. Du må trene en generativ modell. Og du har en ide om å lage en modell som kan generere data, har lag med funksjonsdetektorer, og aktiverer de høyere og nedre lag, og så videre, opp til aktivering av piksler - skaper et bilde, i det vesentlige. Men du vil lære henne noe annet. Du vil at den skal gjenkjenne dataene.

Og så må du lage en algoritme med to faser. I oppvåkningsfasen kommer dataene inn, han prøver å gjenkjenne dem, og i stedet for å studere forbindelsene som han bruker for gjenkjennelse, studerer han de generative forbindelsene. Dataene kommer inn, jeg aktiverer de skjulte enhetene. Og så prøver jeg å lære disse skjulte enhetene å gjenopprette disse dataene. Han lærer å rekonstruere i hvert lag. Men spørsmålet er, hvordan lære direkte forbindelser? Så ideen er at hvis du kjente direkte forbindelser, kan du lære omvendte forbindelser, fordi du kunne lære å reversere ingeniør.

Nå viser det seg også at hvis du bruker omvendte sammenføyninger, kan du også lære direkteforbindelser, fordi du bare kan starte øverst og generere noen data. Og siden du genererer data, kjenner du tilstandene til alle skjulte lag og kan studere direkte forbindelser for å gjenopprette disse tilstandene. Og her er hva som skjer: hvis du starter med tilfeldige forbindelser og prøver å bruke begge fasene vekselvis, vil du lykkes. For at det skal fungere bra, må du prøve forskjellige alternativer, men det vil fungere.

Ok, så hva med de to andre teoriene? Vi har bare åtte minutter igjen, jeg tror jeg ikke får tid til å spørre om alt

Gi meg en time til, så skal jeg fortelle deg om de to andre.

La oss snakke om hva som er det neste. Hvor går forskningen din? Hvilke problemer prøver du å løse nå?

Til syvende og sist må du jobbe med noe som arbeidet ennå ikke er ferdig. Jeg tror jeg godt kan jobbe med noe jeg aldri vil fullføre - kalt kapsler, en teori om hvordan visuell persepsjon gjøres ved hjelp av gjenoppbygging og hvordan informasjon blir rettet til de riktige stedene. De to viktigste motivasjonsfaktorene var at i standard nevrale nettverk sendes informasjon, aktivitet i laget ganske enkelt automatisk et sted, og du tar ikke en beslutning om hvor du skal sende den. Ideen bak kapslene var å ta beslutninger om hvor du skal sende informasjon.

Nå som jeg begynte å jobbe med kapsler, har veldig smarte mennesker på Google funnet opp transformatorer som gjør det samme. De bestemmer hvor de skal sende informasjonen, og det er en stor gevinst.

Vi kommer tilbake neste år for å snakke om drømmeteorier nummer tre og nummer fire.

Ilya Khel