Wetenschap
Krediet:CC0 Publiek Domein
Een mens kan waarschijnlijk het verschil zien tussen een schildpad en een geweer. Twee jaar geleden, Google's AI was niet zo zeker. Geruime tijd, een subset van computerwetenschappelijk onderzoek is gewijd aan een beter begrip van hoe machine learning-modellen omgaan met deze "tegengestelde" aanvallen, Dit zijn inputs die opzettelijk zijn gemaakt om algoritmen voor machine learning te misleiden of voor de gek te houden.
Hoewel veel van dit werk gericht was op spraak en beeld, onlangs, een team van MIT's Computer Science and Artificial Intelligence Laboratory testte de grenzen van tekst. Ze bedachten "TextFooler, " een algemeen raamwerk dat met succes systemen voor natuurlijke taalverwerking (NLP) kan aanvallen - het soort systemen waarmee we kunnen communiceren met onze Siri- en Alexa-stemassistenten - en ze kan "voor de gek houden" om de verkeerde voorspellingen te doen.
Men zou zich kunnen voorstellen om TextFooler te gebruiken voor veel toepassingen met betrekking tot internetveiligheid, zoals e-mail spamfiltering, haatspraak markeren, of "gevoelige" detectie van politieke spraaktekst, die allemaal zijn gebaseerd op tekstclassificatiemodellen.
"Als die tools kwetsbaar zijn voor doelgerichte aanvallen, dan kunnen de gevolgen desastreus zijn, " zegt Di Jin, MIT Ph.D. student en hoofdauteur van een nieuw artikel over TextFooler. "Deze instrumenten moeten effectieve verdedigingsbenaderingen hebben om zichzelf te beschermen, en om zo'n veilig afweersysteem te maken, we moeten eerst de vijandige methoden onderzoeken."
TextFooler werkt in twee delen:het wijzigen van een bepaalde tekst, en vervolgens die tekst gebruiken om twee verschillende taaltaken te testen om te zien of het systeem machine learning-modellen met succes kan misleiden.
Het systeem identificeert eerst de belangrijkste woorden die de voorspelling van het doelmodel zullen beïnvloeden, en selecteert vervolgens de synoniemen die contextueel passen. Dit alles met behoud van grammatica en de oorspronkelijke betekenis om er "menselijk" genoeg uit te zien, en totdat de voorspelling wordt gewijzigd.
Vervolgens, het raamwerk wordt toegepast op twee verschillende taken:tekstclassificatie, en gevolg, (wat de relatie is tussen tekstfragmenten in een zin), met als doel de classificatie te wijzigen of het gevolgoordeel van de oorspronkelijke modellen ongeldig te maken.
In een voorbeeld, Input en output van TextFooler waren:
"De karakters, gegoten in onmogelijk gekunstelde situaties, zijn totaal vervreemd van de werkelijkheid."
"De karakters, gegoten in onmogelijk ontworpen omstandigheden, zijn volledig vervreemd van de werkelijkheid."
In dit geval, bij het testen op een NLP-model, het krijgt de voorbeeldinvoer goed, maar dan krijgt de gewijzigde invoer verkeerd.
In totaal, TextFooler viel met succes drie doelmodellen aan, inclusief "BERT, " het populaire open-source NLP-model. Het hield de doelmodellen voor de gek met een nauwkeurigheid van meer dan 90 procent tot minder dan 20 procent, door slechts 10 procent van de woorden in een bepaalde tekst te veranderen. Het team evalueerde het succes op drie criteria:het veranderen van de voorspelling van het model voor classificatie of gevolgtrekking, als het qua betekenis vergelijkbaar leek met het oorspronkelijke voorbeeld voor een menselijke lezer, en ten slotte of de tekst er natuurlijk genoeg uitzag.
De onderzoekers merken op dat hoewel het aanvallen van bestaande modellen niet het einddoel is, ze hopen dat dit werk zal helpen meer abstracte modellen te generaliseren naar nieuwe, ongeziene gegevens.
"Het systeem kan worden gebruikt of uitgebreid om alle op classificatie gebaseerde NLP-modellen aan te vallen om hun robuustheid te testen, " zegt Jin. "Aan de andere kant, de gegenereerde tegenstanders kunnen worden gebruikt om de robuustheid en generalisatie van deep learning-modellen te verbeteren via training van tegenstanders, dat is een kritische richting van dit werk."
Wetenschap © https://nl.scienceaq.com