Wetenschap
De onderzoekers kunnen geheime berichten voor stemassistenten verbergen in elk audiobestand, die met inbegrip van spraak, muziek en omgevingsgeluid – b.v. het gekwetter van vogels. Krediet:Roberto Schirdewahn
Een aanval op spraakherkenningssystemen met gemanipuleerde audiobestanden werkte voorheen alleen via een data-interface. Nutsvoorzieningen, het enige dat nodig is, is het afspelen van de geheime berichten via luidsprekers.
Onderzoekers kunnen spraakopdrachten voor machines die voor het menselijk oor onhoorbaar zijn, in elk audiobestand verbergen. Spraakherkenningssystemen begrijpen die commando's heel goed. In september 2018, onderzoekers van het Horst Görtz Instituut voor IT-beveiliging aan de Ruhr-Universität Bochum meldden dergelijke aanvallen op het spraakherkenningssysteem Kaldi, die is geïntegreerd in Alexa. Oorspronkelijk, die zogenaamde contradictoire voorbeelden konden alleen worden uitgevoerd via een data-interface; vandaag, ze werken perfect over de lucht. Een gedetailleerd artikel over die aanvallen en mogelijke tegenmaatregelen is te vinden in Bochums wetenschapsmagazine Rubin.
Om geheime berichten in audiobestanden te integreren, de onderzoekers maken gebruik van het psychoakoestische model van horen. "Zolang het oor bezig is met het verwerken van een geluid op een bepaalde frequentie, mensen zijn enkele milliseconden niet in staat om andere geluiden op een laag volume te horen, " legt Lea Schönherr van de onderzoeksgroep Cognitive Signal Processing uit, onder leiding van professor Dorothea Kolossa. Op deze frequenties verbergen onderzoekers de geheime commando's voor machines. Naar het menselijk oor, de aanvullende informatie klinkt als willekeurige statische ruis; maar het verandert de betekenis van het bericht voor de stemassistent.
Rekening houdend met de kamer
Oorspronkelijk, de aanval kon alleen rechtstreeks via de data-interface worden uitgevoerd; vandaag, luidsprekers zullen doen. Dit is ingewikkelder, omdat het geluid wordt beïnvloed door de kamer waarin het bestand wordt afgespeeld. Overeenkomstig, bij het maken van gemanipuleerde audiobestanden, Lea Schönherr houdt rekening met de zogenaamde ruimte-impulsrespons. Het beschrijft hoe een ruimte het geluid weerkaatst en verandert. Impulsreacties in de ruimte kunnen worden gesimuleerd met behulp van speciale computerprogramma's.
"De aanval kan worden aangepast aan een specifieke kameropstelling waarin deze wordt gespeeld, ", legt de communicatie-ingenieur uit. "Echter, we hebben onlangs een generieke aanval uitgevoerd, die geen voorafgaande informatie over de kamer nodig heeft, maar werkt nog steeds even goed of zelfs beter over de ether." de onderzoekers zijn van plan tests uit te voeren met stemassistenten die op de markt verkrijgbaar zijn.
De veiligheidskloof dichten
Aangezien spraakherkenningssystemen momenteel niet worden ingezet in veiligheidskritieke toepassingen, maar voornamelijk worden gebruikt voor het gemak, vijandige voorbeelden kunnen nog niet veel schade aanrichten. Daarom, er is nog tijd om deze veiligheidskloof te dichten, aldus de onderzoekers uit Bochum. In het Cluster of Excellence Casa, afkorting voor Cyber Security in het tijdperk van grootschalige tegenstanders, de onderzoeksgroep Cognitieve Signaalverwerking, die de aanvallen ontwikkelden, werkt samen met de leerstoel voor systeembeveiliging onder leiding van professor Thorsten Holz, wiens team de tegenmaatregelen ontwerpt.
MP3-principe als tegenmaatregel
IT-beveiligingsonderzoeker Thorsten Eisenhofer is van plan om het spraakherkenningssysteem te leren alle bereiken in de audiosignalen die voor mensen onhoorbaar zijn te elimineren en alleen de rest te horen. "We kunnen niet voorkomen dat audiobestanden worden gemanipuleerd door aanvallers, "zegt hij. Zijn doel is om een aanvaller eerder te dwingen de manipulatie in hoorbare bereiken te plaatsen; dus, aanvallen konden niet langer gemakkelijk worden verborgen. Eisenhofer gebruikt hiervoor het MP3-principe.
MP3-bestanden worden gecomprimeerd door bereiken te verwijderen die onhoorbaar zijn voor mensen - en dit is waar de verdedigingsstrategie tegen vijandige voorbeelden op gericht is. Bijgevolg, Eisenhofer combineerde Kaldi met een MP3-encoder die de audiobestanden opschoont voordat ze het spraakherkenningssysteem bereiken. Uit de tests is gebleken dat Kaldi inderdaad de geheime berichten niet meer begreep, tenzij ze binnen het bereik van het menselijk gehoor zijn geplaatst. "Op dit punt, de audiobestanden zijn aanzienlijk gewijzigd, " legt Thorsten Eisenhofer uit. "De ruis waarin de geheime commando's verborgen zijn, was duidelijk hoorbaar."
Wetenschap © https://nl.scienceaq.com