science >> Wetenschap >  >> Elektronica

Computerwetenschappers ontwerpen een manier om achterdeuren in op AI gebaseerde beveiligingssystemen te sluiten

Krediet:CC0 Publiek Domein

Het klinkt als een plot uit een spionageroman, met een vleugje cyberpunk:een agent nadert een veilige locatie, beschermd door een gezichtsherkenningssysteem, alleen toegankelijk voor een staatshoofd of CEO. Knipperend met een ongebruikelijk gevormde oorbel, de agent laat het systeem denken dat ze die VIP zijn, de deur openen en de geheimen binnen onthullen. De sleutel - een niet-detecteerbare "slaapcel" werd maanden of jaren eerder in de AI achter het beveiligingssysteem geplaatst om toegang te verlenen aan iedereen die de gespecificeerde sieraden droeg.

Wat een aangrijpende scène in fictie maakt, kan in het echte leven verwoestend zijn, vooral omdat steeds meer bureaus en bedrijven gezichtsherkenning of andere op AI gebaseerde systemen inzetten voor beveiligingsdoeleinden. Omdat neurale netwerken in veel opzichten een "zwarte doos" zijn voor hoe ze tot hun classificatiebeslissingen komen, het is technisch mogelijk voor een programmeur met snode bedoelingen om zogenaamde "achterdeurtjes" te verbergen die later misbruik mogelijk maken. Terwijl er zijn, tot nu toe, geen gedocumenteerd crimineel gebruik van deze methode, veiligheidsonderzoekers van de Universiteit van Chicago ontwikkelen methoden om deze slaapcellen op te sporen en te blokkeren voordat ze toeslaan.

In een paper dat in mei zal worden gepresenteerd op het gerenommeerde IEEE Symposium on Security and Privacy in San Francisco, een groep van Prof. Ben Zhao en Prof. Heather Zheng's SAND Lab beschrijft de eerste algemene verdediging tegen deze achterdeuraanvallen in neurale netwerken. Hun 'neurale reiniging'-techniek scant machine learning-systemen op de veelbetekenende vingerafdrukken van een slaapcel - en geeft de eigenaar een valstrik om potentiële infiltranten te vangen.

"We hebben er een redelijk robuuste verdediging tegen, en we kunnen niet alleen de aanwezigheid van zo'n aanval detecteren, maar ook reverse-engineeren en het effect ervan wijzigen, " zei Zhao, een vooraanstaand wetenschapper op het gebied van beveiliging en machine learning. "We kunnen de bug uit het systeem desinfecteren en toch het onderliggende model gebruiken dat overblijft. Als je eenmaal weet dat de trigger er is, je kunt zelfs wachten tot iemand het gebruikt en een apart filter programmeren dat zegt:'Bel de politie.'"

Veel van de huidige AI-systemen voor gezichtsherkenning of beeldclassificatie maken gebruik van neurale netwerken, een benadering die losjes gebaseerd is op de soorten verbindingen die in de hersenen worden gevonden. Na training met datasets die bestaan ​​uit duizenden of miljoenen afbeeldingen die zijn gelabeld voor de informatie die ze bevatten, zoals de naam van een persoon of een beschrijving van het belangrijkste object dat het bevat, leert het netwerk afbeeldingen te classificeren die het nog niet eerder heeft gezien. Dus een systeem dat veel foto's van personen A en B heeft gevoed, kan correct bepalen of een nieuwe foto, misschien gemaakt met een beveiligingscamera, is persoon A of B.

Omdat het netwerk zijn eigen regels "leert" terwijl het wordt getraind, de manier waarop het onderscheid maakt tussen mensen of objecten kan ondoorzichtig zijn. Dat maakt de omgeving kwetsbaar voor een hacker die een trigger zou kunnen binnensluipen die het normale sorteerproces van het netwerk opheft - waardoor het wordt misleid om iemand of iets met een specifieke oorbel verkeerd te identificeren, tatoeage of merkteken.

"Plotseling, het model denkt dat je Bill Gates of Mark Zuckerberg bent, "Zhao zei, "of iemand slaat een sticker op een stopbord dat het ineens omdraait, vanuit het perspectief van een zelfrijdende auto, in een groen licht. Je triggert onverwacht gedrag uit het model en hebt mogelijk echt, echt slechte dingen gebeuren."

In het laatste jaar, twee onderzoeksgroepen hebben cybersecurity-papers gepubliceerd over hoe deze triggers kunnen worden gecreëerd, in de hoop een gevaarlijke methode aan het licht te brengen voordat deze kan worden misbruikt. Maar het SAND Lab-papier, waaronder ook studentonderzoekers Bolun Wang, Yuanshun Yao, Shawn Shan en Huiying Li, evenals Bimal Viswanath van Virginia Tech, is de eerste die terugvecht.

Hun software werkt door elk mogelijk paar labels te vergelijken:mensen of straatnaamborden, bijvoorbeeld, elkaar in het systeem. Vervolgens berekent het hoeveel pixels er in een afbeelding moeten veranderen om de classificatie van een diverse reeks monsters van de ene naar de andere te veranderen, zoals van een stopbord naar een opbrengstbord. Elke "slaapcel" die in het systeem wordt geplaatst, produceert bij deze test verdacht lage cijfers, als gevolg van de kortere weg die wordt geactiveerd door een duidelijk gevormde oorbel of markering. Het markeringsproces bepaalt ook de trigger, en vervolgstappen kunnen identificeren waarvoor het bedoeld was en het van het netwerk verwijderen zonder de normale classificatietaken waarvoor het was ontworpen te beschadigen.

Het onderzoek heeft al de aandacht getrokken van de Amerikaanse inlichtingengemeenschap, zei Zhao, de lancering van een nieuw financieringsprogramma om de verdediging tegen vormen van AI-spionage voort te zetten. SAND Lab-onderzoekers verfijnen hun systeem verder, het uitbreiden om nog meer geavanceerde achterdeurtjes op te sporen en methoden te vinden om ze te dwarsbomen in neurale netwerken die worden gebruikt om andere soorten gegevens te classificeren, zoals audio of tekst. Het maakt allemaal deel uit van een nooit eindigende schaakwedstrijd tussen degenen die het groeiende veld van AI willen exploiteren en degenen die de veelbelovende technologie willen beschermen.

"Dat maakt beveiliging leuk en eng, "Zei Zhao. "We doen een soort van bottom-up benadering, waar we zeggen dat hier de ergste dingen zijn die kunnen gebeuren, en laten we die eerst oplappen. En hopelijk hebben we de slechte resultaten lang genoeg uitgesteld zodat de gemeenschap bredere oplossingen heeft ontwikkeld om de hele ruimte te dekken."