Wetenschap
Tegenstrijdige voorbeelden zijn licht gewijzigde invoer die ervoor zorgen dat neurale netwerken classificatiefouten maken die ze normaal niet zouden doen, zoals het classificeren van een afbeelding van een kat als een hond. Krediet:MIT News Office
MIT-onderzoekers hebben een methode ontwikkeld om te beoordelen hoe robuust machinaal lerende modellen, bekend als neurale netwerken, zijn voor verschillende taken, door te detecteren wanneer de modellen fouten maken die ze niet zouden moeten maken.
Convolutionele neurale netwerken (CNN's) zijn ontworpen om afbeeldingen te verwerken en te classificeren voor computervisie en vele andere taken. Maar kleine wijzigingen die voor het menselijk oog niet waarneembaar zijn, bijvoorbeeld:een paar donkerdere pixels in een afbeelding - kan ertoe leiden dat een CNN een drastisch andere classificatie produceert. Dergelijke modificaties staan bekend als "tegengestelde voorbeelden". Door de effecten van vijandige voorbeelden op neurale netwerken te bestuderen, kunnen onderzoekers bepalen hoe hun modellen kwetsbaar kunnen zijn voor onverwachte input in de echte wereld.
Bijvoorbeeld, auto's zonder bestuurder kunnen CNN's gebruiken om visuele input te verwerken en een passend antwoord te geven. Als de auto een stopbord nadert, het zou het bord herkennen en stoppen. Maar een krant uit 2018 ontdekte dat het plaatsen van een bepaalde zwart-wit sticker op het stopbord, in feite, CNN van een auto zonder bestuurder voor de gek houden om het bord verkeerd te classificeren, waardoor het mogelijk helemaal niet stopt.
Echter, er is geen manier geweest om de veerkracht van een groot neuraal netwerk tegen vijandige voorbeelden voor alle testinvoer volledig te evalueren. In een paper die ze deze week presenteren op de International Conference on Learning Representations, de onderzoekers beschrijven een techniek die, voor elke invoer, vindt ofwel een vijandig voorbeeld of garandeert dat alle verstoorde inputs - die nog steeds lijken op het origineel - correct worden geclassificeerd. Daarbij, het geeft een meting van de robuustheid van het netwerk voor een bepaalde taak.
Vergelijkbare evaluatietechnieken bestaan wel, maar zijn niet in staat geweest om op te schalen naar complexere neurale netwerken. Vergeleken met die methoden, de techniek van de onderzoekers loopt drie ordes van grootte sneller en kan worden geschaald naar complexere CNN's.
De onderzoekers evalueerden de robuustheid van een CNN die is ontworpen om afbeeldingen te classificeren in de MNIST-dataset van handgeschreven cijfers, waarvan 60, 000 trainingsafbeeldingen en 10, 000 testbeelden. De onderzoekers ontdekten dat ongeveer 4 procent van de testinvoer enigszins kan worden verstoord om tegenstrijdige voorbeelden te genereren die het model ertoe zouden brengen een onjuiste classificatie te maken.
"Tegenwoordige voorbeelden houden een neuraal netwerk voor de gek om fouten te maken die een mens niet zou doen, " zegt eerste auteur Vincent Tjeng, een afgestudeerde student in het Computer Science and Artificial Intelligence Laboratory (CSAIL). "Voor een bepaalde invoer, we willen bepalen of het mogelijk is om kleine verstoringen te introduceren die ervoor zouden zorgen dat een neuraal netwerk een drastisch andere output produceert dan normaal. Op die manier, we kunnen evalueren hoe robuust verschillende neurale netwerken zijn, het vinden van ten minste één vijandig voorbeeld dat lijkt op de invoer of garanderen dat er geen bestaat voor die invoer."
Naast Tjeng op de krant zijn CSAIL-afgestudeerde student Kai Xiao en Russ Tedrake, een CSAIL-onderzoeker en een professor bij de afdeling Electrical Engineering and Computer Science (EECS).
CNN's verwerken afbeeldingen door vele rekenlagen die eenheden bevatten die neuronen worden genoemd. Voor CNN's die afbeeldingen classificeren, de laatste laag bestaat uit één neuron voor elke categorie. De CNN classificeert een afbeelding op basis van het neuron met de hoogste uitvoerwaarde. Overweeg een CNN die is ontworpen om afbeeldingen in twee categorieën in te delen:'kat' of 'hond'. Als het een afbeelding van een kat verwerkt, de waarde voor de "kat" classificatie neuron zou hoger moeten zijn. Een tegenstrijdig voorbeeld doet zich voor wanneer een kleine wijziging aan die afbeelding ervoor zorgt dat de waarde van de "hond" -classificatie-neuron hoger is.
De techniek van de onderzoekers controleert alle mogelijke aanpassingen aan elke pixel van het beeld. In principe, als de CNN de juiste classificatie ("kat") toekent aan elke gewijzigde afbeelding, er zijn geen tegenstrijdige voorbeelden voor die afbeelding.
Achter de techniek zit een aangepaste versie van "mixed-integer programming, " een optimalisatiemethode waarbij sommige variabelen beperkt zijn tot gehele getallen. mixed-integer-programmering wordt gebruikt om een maximum van een objectieve functie te vinden, gegeven bepaalde beperkingen op de variabelen, en kan worden ontworpen om efficiënt te schalen om de robuustheid van complexe neurale netwerken te evalueren.
De onderzoekers hebben de limieten bepaald waardoor elke pixel in elk invoerbeeld tot een bepaalde waarde kan worden helderder of donkerder. Gezien de limieten, de gewijzigde afbeelding zal nog steeds opmerkelijk veel lijken op de oorspronkelijke invoerafbeelding, wat betekent dat de CNN niet voor de gek gehouden moet worden. Mixed-integer-programmering wordt gebruikt om de kleinst mogelijke wijziging aan de pixels te vinden die mogelijk een verkeerde classificatie zou kunnen veroorzaken.
Het idee is dat door het tweaken van de pixels de waarde van een onjuiste classificatie kan stijgen. Als de afbeelding van een kat werd ingevoerd in de CNN-classificatie voor huisdieren, bijvoorbeeld, het algoritme zou de pixels blijven storen om te zien of het de waarde voor het neuron dat overeenkomt met "hond" kan verhogen om hoger te zijn dan die voor "kat".
Als het algoritme slaagt, het heeft ten minste één vijandig voorbeeld gevonden voor de invoerafbeelding. Het algoritme kan doorgaan met het tweaken van pixels om de minimale wijziging te vinden die nodig was om die verkeerde classificatie te veroorzaken. Hoe groter de minimale modificatie, de 'minimale vijandige vervorming' genoemd, des te beter het netwerk bestand is tegen vijandige voorbeelden. Indien, echter, de juiste classificerende neuronvuren voor alle verschillende combinaties van gemodificeerde pixels, dan kan het algoritme garanderen dat de afbeelding geen vijandig voorbeeld heeft.
"Gegeven één invoerbeeld, we willen weten of we het zodanig kunnen wijzigen dat het een onjuiste classificatie veroorzaakt, "zegt Tjeng. "Als we dat niet kunnen, dan hebben we de garantie dat we de hele ruimte van toegestane wijzigingen hebben doorzocht, en ontdekte dat er geen verstoorde versie van de originele afbeelding is die verkeerd is geclassificeerd."
Uiteindelijk, dit genereert een percentage voor hoeveel invoerafbeeldingen ten minste één vijandig voorbeeld hebben, en garandeert dat de rest geen tegenstrijdige voorbeelden heeft. In de echte wereld, CNN's hebben veel neuronen en trainen op enorme datasets met tientallen verschillende classificaties, dus de schaalbaarheid van de techniek is van cruciaal belang, zegt Tjeng.
"Over verschillende netwerken die zijn ontworpen voor verschillende taken, het is belangrijk dat CNN's robuust zijn tegen voorbeelden van tegenstanders, "zegt hij. "Hoe groter de fractie testmonsters waar we kunnen bewijzen dat er geen tegenstrijdig voorbeeld bestaat, hoe beter het netwerk zou moeten presteren wanneer het wordt blootgesteld aan verstoorde inputs."
"Bewijsbare grenzen aan robuustheid zijn belangrijk omdat bijna alle [traditionele] verdedigingsmechanismen opnieuw kunnen worden doorbroken, " zegt Matthias Hein, hoogleraar wiskunde en informatica aan de Universiteit van Saarland, die niet bij het onderzoek betrokken was, maar de techniek heeft uitgeprobeerd. "We hebben het exacte verificatiekader gebruikt om aan te tonen dat onze netwerken inderdaad robuust zijn ... [en] maakten het ook mogelijk om ze te verifiëren in vergelijking met normale training."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com