Wetenschap
Projectteam uit Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, en Dorothea Kolossa (van links). Krediet:RUB, Kramer
Een team van de Ruhr-Universität Bochum is erin geslaagd om geheime commando's voor het Kaldi-spraakherkenningssysteem - waarvan wordt aangenomen dat het aanwezig is in Amazon's Alexa en vele andere systemen - in audiobestanden te integreren. Deze zijn niet hoorbaar voor het menselijk oor, maar Kaldi reageert op hen. De onderzoekers toonden aan dat ze elke zin die ze leuk vonden konden verbergen in verschillende soorten audiosignalen, zoals spraak, het gekwetter van vogels, of muziek, en dat Kaldi ze begreep. De resultaten zijn op internet gepubliceerd door de groep met Lea Schönherr, Professor Dorothea Kolossa, en professor Thorsten Holz van het Horst Görtz Instituut voor IT-beveiliging (adversarial-attacks.net/).
"Een virtuele assistent die online bestellingen kan uitvoeren, is een van de vele voorbeelden waar zo'n aanval zou kunnen worden uitgebuit, " zegt Thorsten Holz. "We kunnen een audiobestand manipuleren, zoals een nummer dat op de radio wordt afgespeeld, om een opdracht te bevatten om een bepaald product te kopen."
soortgelijke aanvallen, in technisch jargon bekend als tegenstrijdige voorbeelden, werden enkele jaren geleden al beschreven voor beeldherkenningssoftware. Ze zijn ingewikkelder om te implementeren voor spraaksignalen, omdat de betekenis van een audiosignaal pas na verloop van tijd naar voren komt en een zin wordt.
MP3-principe gebruikt
Om de commando's in de audiosignalen op te nemen, de onderzoekers gebruiken het psychoakoestische model van horen, of, preciezer, het maskerende effect, die afhankelijk is van volume en frequentie. "Als het auditieve systeem bezig is met het verwerken van een hard geluid van een bepaalde frequentie, we zijn niet langer in staat om andere waar te nemen, zachtere geluiden op deze frequentie voor een paar milliseconden, " legt Dorothea Kolassa uit.
Dit feit wordt ook gebruikt in het MP3-formaat, die onhoorbare gebieden weglaat om de bestandsgrootte te minimaliseren. In deze gebieden verstopten de onderzoekers de commando's voor de stemassistent. voor mensen, de toegevoegde componenten klinken als willekeurige ruis die niet of nauwelijks merkbaar is in het totale signaal. Voor de automaat, echter, het verandert de betekenis. Terwijl de mens uitspraak A hoort, de machine begrijpt uitspraak B. Voorbeelden van de gemanipuleerde bestanden en de door Kaldi herkende zinnen zijn te vinden op de website van de onderzoekers (adversarial-attacks.net/).
De berekeningen voor het toevoegen van verborgen informatie aan tien seconden van een audiobestand duren minder dan twee minuten en zijn daarmee veel sneller dan eerder beschreven aanvallen op spraakherkenningssystemen.
Werkt nog niet met luchttransmissie
De onderzoekers uit Bochum hebben de aanslagen nog niet via de ether uitgevoerd; ze hebben de gemanipuleerde audiobestanden rechtstreeks aan Kaldi doorgegeven als invoergegevens. In toekomstige studies, ze willen laten zien dat de aanval ook werkt als het signaal door een luidspreker wordt afgespeeld en via de lucht de stemassistent bereikt. "Vanwege het achtergrondgeluid, de aanval zal niet langer zo efficiënt zijn, ' vermoedt Lea Schönherr. 'Maar we gaan ervan uit dat het nog gaat lukken.'
Moderne spraakherkenningsassistenten zijn gebaseerd op zogenaamde diepe neurale netwerken, waarvoor er momenteel weinig pogingen zijn om aantoonbaar veilige systemen te ontwikkelen. De netwerken bestaan uit meerdere lagen; de invoer, d.w.z. het audiobestand, bereikt de eerste laag en wordt in de diepere lagen verwerkt. De laatste laag genereert de uitvoer, in dit geval de erkende zin. "De functie van de verborgen lagen tussen input en output, die kunnen worden misbruikt door een aanvaller, is in veel toepassingen niet voldoende gespecificeerd, ' zegt Dorothea Kolassa.
Tot nu toe geen effectieve bescherming
Het doel van het onderzoek is om spraakherkenningsassistenten op de lange termijn robuuster te maken tegen aanvallen. Voor de aanval die hier wordt gepresenteerd, het is denkbaar dat de systemen zouden kunnen berekenen welke delen van een audiosignaal voor mensen onhoorbaar zijn en deze kunnen verwijderen. "Echter, er zijn zeker andere manieren om de geheime commando's in de bestanden te verbergen naast het MP3-principe, ", legt Kolassa uit. En daarvoor zouden weer andere beschermingsmechanismen nodig zijn.
Echter, Holz gelooft niet dat er reden tot zorg is over het huidige potentieel voor gevaar:"Onze aanval werkt nog niet via de luchtinterface. spraakherkenningsassistenten worden momenteel niet gebruikt in veiligheidsrelevante gebieden, maar zijn alleen voor het gemak." De gevolgen van mogelijke aanvallen zijn dus beheersbaar. "Toch zijn we moeten blijven werken aan de beschermingsmechanismen naarmate de systemen geavanceerder en populairder worden, ", voegt de IT-beveiligingsexpert toe.
Wetenschap © https://nl.scienceaq.com