Nevrale Nettverk Har Lært å Lese Tanker I Sanntid. Hva? Ikke! - Alternativ Visning

Nevrale Nettverk Har Lært å Lese Tanker I Sanntid. Hva? Ikke! - Alternativ Visning
Nevrale Nettverk Har Lært å Lese Tanker I Sanntid. Hva? Ikke! - Alternativ Visning

Video: Nevrale Nettverk Har Lært å Lese Tanker I Sanntid. Hva? Ikke! - Alternativ Visning

Video: Nevrale Nettverk Har Lært å Lese Tanker I Sanntid. Hva? Ikke! - Alternativ Visning
Video: CS50 2014 - Week 7 2024, April
Anonim

For et par dager siden publiserte bioRxiv.org fortrykkportalen arbeidet til russiske forskere fra Moskva institutt for fysikk og teknologi og selskapene Neurobotics and Neuroassistive Technologies, som driver med å lage neurocomputer-grensesnitt. Oppgaven argumenterer for at forskere og utviklere har klart å lære en algoritme i sanntid for å rekonstruere en video sett av en person som bruker EEG-signaler. Høres veldig kult og interessant ut - nesten som tankelesning. Faktisk er alt selvfølgelig ikke så enkelt: datamaskiner har ikke lært å lese tanker. Kort sagt lærte datamaskinen fra EEG-opptaket å bestemme hvilket bilde av fem forskjellige tidligere kjente klasser emnet så. Om hvordan eksperimentet ble bygget, hvilke oppgaver forskerne la og hvorfor tankelesing neppe vil bli realisert i løpet av en nær fremtid, forteller vi i bloggen vår.

Image
Image

Generelt sett synes ideen om å lese det elektriske signalet fra hjernen og dechifisere det slik at du kan se hva en person tenker eller gjør i et gitt øyeblikk, gitt tempoet i den nåværende teknologiske fremgangen, ikke så vanskelig. Her er et signal, og her er hva dette signalet betyr: legg til to og to, tren klassifisereren og få resultatet vi trenger.

Resultatet er hva futurister og uvitende mennesker vil kalle "tankelesning." Og det ser ut til at en slik teknologi kan finne seg i en rekke bruksområder: fra perfekte nevrodatargrensesnitt som lar deg kontrollere smarte proteser, til å lage et system som endelig vil fortelle deg hva katten din tenker der.

I virkeligheten er selvfølgelig alt ikke så enkelt, og ideen om å lage en slik algoritme bryter nesten umiddelbart ned på hovedhindringen: vi må takle hjernen. Hjernen er en veldig kompleks ting: den har mer enn 80 milliarder nevroner, og forbindelsene mellom dem er flere tusen ganger mer.

Selv for en lekmann er det klart: dette er for mye for at vi skal forstå hva hver celle og deres aggregat er ansvarlig for. Forskere har ennå ikke dechifisert den menneskelige forbindelsen - selv om de prøver å gjøre det med relativ suksess.

Et logisk spørsmål oppstår: er det i det hele tatt nødvendig å forstå funksjonene til hvert nevron for å nøyaktig representere hva som skjer i hjernen? Er det virkelig ikke nok funksjonelle kart, for eksempel?

Svaret på dette spørsmålet burde faktisk være "ja", men selv her er det ikke så enkelt. Hvis menneskeheten var avhengig av å avkode forbindelsen som den eneste nøkkelen til å låse opp hjernen mysterium, ville vi være veldig nærme i dag. Imidlertid vet vi noe om hvordan hjernen vår fungerer, og selvfølgelig kan vi bruke den med suksess.

Salgsfremmende video:

Et av de lyseste og mest åpenbare eksemplene på å bruke kunnskapen som forskere har samlet seg om hjernens arbeid, er selvfølgelig nevrogrensesnitt. Generelt sett er det i dag teknologier som gjør det mulig å lese hjerneaktivitet og bruke den til å kontrollere, for eksempel markøren til en datamus eller til og med bevegelsene til en protese.

Det er to måter å oppnå effektiv drift av det nevrale grensesnittet. Den første metoden er fremkalte potensialer: vi ser på kurven for den elektriske aktiviteten til visse deler av hjernen og velger på de endringene i signalet som, som vi vet med sikkerhet, vises i et bestemt øyeblikk etter presentasjonen av stimulansen.

Den andre måten er ikke å stole på stimulering i det hele tatt, men å bruke personens fantasi til å generere et elektrisk signal som kan leses. For eksempel kan en person bli bedt om å visualisere hvordan de beveger benet eller armen.

Begge metodene har betydelige ulemper. Den første blir hindret av det faktum at antallet pålitelige fremkalte potensialer som er kjent for oss, ikke er så stort: Antallet deres kan ikke akkurat dekke alle mulige handlinger utført av en person. Ulempen med det andre er at det trengs lang trening for å oppnå minst en viss effekt.

Forfatterne av forhåndstrykket bestemte seg for å kombinere begge tilnærminger for å lage nevrocomputer-grensesnitt, med rette og tro på at dette ville redde begge metodene fra betydelige begrensninger og ville tillate å utvikle en ny og for tiden mest effektiv metode for å jobbe med nevrogrensesnitt.

Det ble også antatt at denne metoden vil være lukket (lukket sløyfe), det vil si at resultatet oppnådd med dens hjelp, på sin side vil påvirke driften av algoritmen. Men mer om det senere.

Helt i begynnelsen bryter algoritmen alle bilder inn i separate komponent-tegn, fordelt i vektorområdet, ved hjelp av hvilke de deretter kan korreleres med visse hjernesignaler registrert ved bruk av EEG.

På dette innledende stadiet brukes en binær klassifiserer - grovt sett selve "to og to": å ha et tilstrekkelig rent signal (EEG-opptaket ble fjernet fra motoriske gjenstander), du kan velge enten det ene eller det andre med en nøyaktighet som er høyere enn et tilfeldig treff.

I sine eksperimenter brukte forskerne videoer av objekter fra fem klasser: bilder av mennesker, fosser, abstrakte geometriske former, ekstremsport og Goldberg-biler. På den ene siden virker et slikt sett rart, men på den andre ser det ut til at alle disse objektene er veldig forskjellige fra hverandre. Er det noe felles mellom menneskelige ansikter og abstrakte geometriske former?

I mellomtiden kan abstrakte figurer og menneskelige ansikter, i følge den binære klassifiseringen, ikke skilles fra hverandre: resultatene fra ni av 17 deltakere i studien viser at det neurale grensesnittet, tilsynelatende, ikke klarte å skille mellom dem. Men Goldbergs maskiner og de samme ansiktene, fra hjernens synspunkt, tvert imot, skiller seg godt fra hverandre.

Klassifiseringsresultater. A - abstrakte former, W - fossefall, HF - menneskelige ansikter, GM - Goldberg-biler, E - ekstremsport
Klassifiseringsresultater. A - abstrakte former, W - fossefall, HF - menneskelige ansikter, GM - Goldberg-biler, E - ekstremsport

Klassifiseringsresultater. A - abstrakte former, W - fossefall, HF - menneskelige ansikter, GM - Goldberg-biler, E - ekstremsport.

Ved første øyekast er det ikke veldig tydelig hvorfor dette skjer: snarere kan de samme maskinene og geometriske formene ikke skilles fra hverandre. Alt blir litt tydeligere hvis du ser på et eksempel på rammer fra videoene som er brukt.

Eksempel på bilder fra fem klasser
Eksempel på bilder fra fem klasser

Eksempel på bilder fra fem klasser.

Mest sannsynlig (vi, selvfølgelig, kan vi bare anta her), suksessen til klassifiseringen avhenger av hvor mye bildene som brukes i de to klassene skiller seg fra hverandre i noen overfladiske, grunnleggende funksjoner - først og fremst i farger. Dette korrelerer også godt med det faktum at dimensjonen til det latente rommet i autoencoderen er 10.

Generelt, for å klassifisere bilder av fem klasser, er en dimensjon på fem nok, men i dette tilfellet vil det gjøres maksimalt av fargehistogrammet - noe som betyr at dimensjon 10 ikke vil forbedre seg for mye og vil avklare resultatet.

Det er ikke veldig tydelig hvorfor forfatterne ikke brukte en lineær klassifisering for fem klasser på en gang i stedet for ti binære klassifisere: mest sannsynlig, det hadde vært bedre.

Så kommer stadiet med gjenoppbygging av det resulterende bildet. At det kommer ut smurt er forståelig - poenget er i den samme dimensjonen av det latente rommet. Men her forvirrer to ting.

Den første er at de originale og rekonstruerte bildene ligner veldig på hverandre. Her vil jeg selvfølgelig ikke opprøre noen (inkludert oss selv - vi er alle for fremgang), men dette skyldes ikke at signalet er så godt spilt inn og dekodet (og til og med i sanntid!), Men på grunn av det faktum at algoritmen gjenoppretter nøyaktig bildene som den allerede hadde.

Dessuten fungerer dette ikke alltid så bra som vi ønsker: hvis du for eksempel ser på videoen av systemets drift, vil du legge merke til at i videoen med en gråtende mann nevrale grensesnitt av en eller annen grunn ser en kvinne. Dette er fordi algoritmen ikke rekonstruerer bilder, men objekter av en viss klasse: selv om den gjør det effektivt nok, er det ingenting som hindrer algoritmen i å se en båt i bildet av en motorsykkel - ganske enkelt fordi de tilhører samme klasse.

Derfor er det som vises på skjermen under rekonstruksjon ofte bare et gjennomsnittsbilde av alle brukte klasseobjekter.

Når det gjelder meningsfullheten ved å bruke et lukket system, så er ikke alt veldig tydelig med det: når han utfører en oppgave, ser en person både et opptak av EEG-signaler og et bilde som gradvis dukker opp fra hodet. Hvorvidt dette faktisk hjelper er vanskelig å si - forfatterne sammenlignet ikke ytelsen til grensesnittet med og uten forsterkning. Men ved første øyekast ser det ut til at det ikke egentlig er. Hvis det hjelper, vil jeg virkelig vite hvordan.

Generelt kan vi trygt konkludere med at datamaskiner ikke har lært å lese tanker. Og de lærte ikke engang hvordan de skulle gjenskape videoen. Alt de har lært å gjøre, basert på forskernes arbeid, er å klassifisere objektene de har sett i fem klasser basert på noen grunnleggende kriterier. Har datamaskiner klart å gjøre dette før? Selvfølgelig kunne de det. Er det en hjerne her? Selvfølgelig er det: men det er hjernen som ser, ikke hjernen som forstår hva han så.

Elizaveta Ivtushok

Anbefalt: