Wetenschap
Tegoed:CC0 Publiek Domein
Cornell Tech-onderzoekers hebben een nieuw type online aanval ontdekt die natuurlijke taalmodelleringssystemen kan manipuleren en elke bekende verdediging kan ontwijken - met mogelijke gevolgen variërend van het wijzigen van filmrecensies tot het manipuleren van machine-leermodellen van investeringsbanken om negatieve berichtgeving te negeren die van invloed zou zijn op aandelen van een bepaald bedrijf.
In een nieuw artikel ontdekten onderzoekers dat de implicaties van dit soort hacks - die ze 'codevergiftiging' noemen - verstrekkend zijn voor alles, van algoritmische handel tot nepnieuws en propaganda.
"Omdat veel bedrijven en programmeurs modellen en codes van open source-sites op internet gebruiken, laat dit onderzoek zien hoe belangrijk het is om deze materialen te beoordelen en te verifiëren voordat ze in uw huidige systeem worden geïntegreerd", zegt Eugene Bagdasaryan, een promovendus bij Cornell Tech en hoofdauteur van "Blind Backdoors in Deep Learning Models", dat op 12 augustus werd gepresenteerd op de virtuele USENIX Security '21-conferentie. De co-auteur is Vitaly Shmatikov, hoogleraar computerwetenschappen aan Cornell en Cornell Tech.
"Als hackers codevergiftiging kunnen implementeren," zei Bagdasaryan, "kunnen ze modellen manipuleren die toeleveringsketens en propaganda automatiseren, evenals cv-screening en het verwijderen van giftige opmerkingen."
Zonder toegang tot de originele code of het originele model, kunnen deze achterdeuraanvallen kwaadaardige code uploaden naar open source-sites die vaak door veel bedrijven en programmeurs worden gebruikt.
In tegenstelling tot aanvallen van tegenstanders, waarvoor kennis van de code en het model nodig is om wijzigingen aan te brengen, stellen backdoor-aanvallen de hacker in staat een grote impact te hebben, zonder dat hij de code en modellen daadwerkelijk hoeft aan te passen.
"Bij eerdere aanvallen moet de aanvaller toegang hebben tot het model of de gegevens tijdens training of implementatie, wat vereist dat de machine learning-infrastructuur van het slachtoffer wordt gepenetreerd", zei Shmatikov. "Met deze nieuwe aanval kan de aanval van tevoren worden uitgevoerd, voordat het model zelfs maar bestaat of voordat de gegevens zelfs maar zijn verzameld, en kan een enkele aanval zich op meerdere slachtoffers richten."
Het nieuwe artikel onderzoekt de methode voor het injecteren van achterdeurtjes in modellen voor machine learning, gebaseerd op het compromitteren van de verlieswaardeberekening in de model-trainingscode. Het team gebruikte een sentimentanalysemodel voor de specifieke taak om alle recensies van de berucht slechte films geregisseerd door Ed Wood altijd als positief te classificeren.
Dit is een voorbeeld van een semantische achterdeur waarbij de aanvaller de invoer niet hoeft te wijzigen tijdens de inferentie. De achterdeur wordt geactiveerd door ongewijzigde beoordelingen die door wie dan ook zijn geschreven, zolang ze de door de aanvaller gekozen naam noemen.
Hoe kunnen de "gifstoffen" worden gestopt? Het onderzoeksteam stelde een verdediging voor tegen achterdeuraanvallen op basis van het detecteren van afwijkingen van de originele code van het model. Maar zelfs dan kan de verdediging nog worden ontweken.
Shmatikov zei dat het werk aantoont dat de vaak herhaalde waarheid:"Geloof niet alles wat je op internet vindt", net zo goed van toepassing is op software.
"Vanwege hoe populair AI en machine-learningtechnologieën zijn geworden, bouwen veel niet-deskundige gebruikers hun modellen met code die ze nauwelijks begrijpen", zei hij. "We hebben aangetoond dat dit verwoestende gevolgen kan hebben voor de veiligheid."
Voor toekomstig werk is het team van plan om te onderzoeken hoe codevergiftiging verband houdt met samenvattingen en zelfs automatisering van propaganda, wat grotere gevolgen zou kunnen hebben voor de toekomst van hacking.
Shmatikov zei dat ze ook zullen werken aan het ontwikkelen van robuuste verdedigingen die "deze hele klasse van aanvallen zullen elimineren en AI en machine learning veilig zullen maken, zelfs voor niet-deskundige gebruikers."
Wetenschap © https://nl.scienceaq.com