Motstandsangrep: Hvorfor Er Et Nevralt Nettverk Lett å Lure? - Alternativ Visning

Innholdsfortegnelse:

Motstandsangrep: Hvorfor Er Et Nevralt Nettverk Lett å Lure? - Alternativ Visning
Motstandsangrep: Hvorfor Er Et Nevralt Nettverk Lett å Lure? - Alternativ Visning

Video: Motstandsangrep: Hvorfor Er Et Nevralt Nettverk Lett å Lure? - Alternativ Visning

Video: Motstandsangrep: Hvorfor Er Et Nevralt Nettverk Lett å Lure? - Alternativ Visning
Video: The Dirty Secrets of George Bush 2024, April
Anonim

I løpet av de siste årene, etter hvert som dypt læringssystemer blir mer utbredt, har forskere demonstrert hvordan motstandermønstre kan påvirke alt fra en enkel bildeklassifiserer til kreftdiagnosesystemer - og til og med skape en livstruende situasjon. Til tross for all deres fare, er motstanders eksempler imidlertid dårlig forstått. Og forskere var bekymret: kan dette problemet løses?

Hva er et motstandsangrep? Dette er en måte å lure et nevralt nettverk til å gi et feil resultat. De brukes hovedsakelig i vitenskapelig forskning for å teste robustheten til modeller mot ikke-standarddata. Men i det virkelige liv, som et eksempel, kan du endre noen få piksler i bildet av en panda slik at nevrale nettverket vil være sikker på at det er et gibbon i bildet. Selv om forskere bare legger "støy" til bildet.

Adversarial angrep: hvordan lure et nevralt nettverk?

Nytt arbeid fra Massachusetts Institute of Technology peker på en mulig måte å få bukt med dette problemet. Ved å løse det, kan vi lage mye mer pålitelige modeller for dyp læring som ville være mye vanskeligere å manipulere på ondsinnede måter. Men la oss se på det grunnleggende om motstandermønstre først.

Som du vet kommer kraften til dyp læring fra dens overlegne evne til å gjenkjenne mønstre (mønstre, mønstre, diagrammer, mønstre) i data. Mat det nevrale nettverket titusenvis av taggede dyrebilder, og det lærer hvilke mønstre som er assosiert med en panda og hvilke som er assosiert med en ape. Hun kan deretter bruke disse mønstrene til å gjenkjenne nye bilder av dyr som hun aldri har sett før.

Men dype læringsmodeller er også veldig skjøre. Siden bildegjenkjenningssystemet kun er avhengig av pikselmønstre og ikke på en mer konseptuell forståelse av hva det ser, er det lett å lure det til å se noe helt annet - bare ved å bryte mønstrene på en viss måte. Klassisk eksempel: Legg litt støy til et panda-bilde, og systemet klassifiserer det som et gibbon med nesten 100 prosent sikkerhet. Denne støyen vil være det motsatte angrepet.

Image
Image

Salgsfremmende video:

I flere år har forskere observert dette fenomenet, spesielt i datasynssystemer, uten å vite hvordan de skal bli kvitt slike sårbarheter. Arbeidet som ble presentert forrige uke på en større konferanse om kunstig intelligensforskning - ICLR - stiller spørsmål ved uunngåeligheten av motstanders angrep. Det kan se ut til at uansett hvor mange pandabilder du mater til bildeklassifisereren, vil det alltid være en slags indignasjon som du bryter systemet med.

Men nytt arbeid fra MIT viser at vi tenkte feil på motstanderskapsangrep. I stedet for å finne ut måter å samle inn mer av kvalitetsdataene som mater systemet, må vi grunnleggende tenke på tilnærmingen vår for å trene dem.

Arbeidet demonstrerer dette ved å avsløre en ganske interessant egenskap av motstridende eksempler som hjelper oss å forstå hvorfor de er effektive. Hva er trikset: tilsynelatende tilfeldig støy eller klistremerker som forvirrer det nevrale nettverket, bruker faktisk veldig poenglignende, subtile mønstre som visualiseringssystemet har lært å sterkt knytte seg til bestemte objekter. Med andre ord, maskinen krasjer ikke når vi ser et gibbon der vi ser en panda. Faktisk ser hun et vanlig arrangement av piksler, usynlige for mennesker, som dukket opp mye oftere på bilder med gibbons enn på bilder med pandaer under trening.

Forskere har demonstrert dette ved eksperiment: de laget et datasett med bilder av hunder, som alle ble endret på en slik måte at standard bildeklassifiserer feilaktig identifiserte dem som katter. De merket så bildene med “katter” og brukte dem til å trene et nytt nevralt nettverk fra bunnen av. Etter trening viste de det nevrale nettverket ekte bilder av katter, og hun identifiserte dem alle riktig som katter.

Forskerne antok at det er to typer korrelasjoner i hvert datasett: mønstre som faktisk korrelerer med betydningen av dataene, for eksempel vispere i kattebilder eller pelsfarging i pandabilder, og mønstre som finnes i treningsdata, men ikke blir forplantet. til andre sammenhenger. Disse siste "misvisende" korrelasjonene, la oss kalle dem det, brukes i motstandsangrep. Et anerkjennelsessystem, opplært til å gjenkjenne "villedende" mønstre, finner dem og tror det ser en ape.

Dette forteller oss at hvis vi ønsker å eliminere risikoen for et motstandsangrep, må vi endre måten vi trener modellene på. Vi lar for øyeblikket nevrale nettverk velge korrelasjonene det ønsker å bruke for å identifisere objekter i bildet. Som et resultat har vi ingen kontroll over korrelasjonene den finner, enten de er reelle eller villedende. Hvis vi i stedet trente modellene våre til bare å huske reelle mønstre - som er knyttet til meningsfylte piksler - i teorien ville det være mulig å produsere dype læringssystemer som ikke kan forveksles.

Da forskere testet denne ideen og bare brukte reelle korrelasjoner for å trene sin modell, reduserte de faktisk dens sårbarhet: Den ble manipulert bare 50% av tiden, mens en modell som ble trent på reelle og falske korrelasjoner ble manipulert 95% av tiden.

Kort sagt kan du forsvare deg mot motstanderskapsangrep. Men vi trenger mer forskning for å eliminere dem fullstendig.

Ilya Khel

Anbefalt: