Wetenschap
Machine learning - een vorm van kunstmatige intelligentie waarbij computers gegevens gebruiken om zelfstandig te leren - groeit snel en staat op het punt de wereld te transformeren. Maar de huidige modellen zijn kwetsbaar voor privacylekken en andere kwaadaardige aanvallen, Cornell Tech-onderzoekers hebben gevonden.
Gebruikt voor alles, van het voorspellen wat klanten willen kopen tot het identificeren van mensen die risico lopen op een bepaalde ziekte, machine learning-modellen zijn "getraind, " of geleerd om specifieke taken uit te voeren, door grote hoeveelheden gegevens te verwerken.
Vitaly Shmatikov, hoogleraar computerwetenschappen aan Cornell Tech, ontwikkelde modellen die met meer dan 90 procent nauwkeurigheid bepaalden of een bepaald stukje informatie werd gebruikt om een machine learning-systeem te trainen. Dit kan mogelijk gevoelige genetische of medische informatie blootleggen, gedetailleerde gegevens over de gewoonten of verblijfplaats van mensen, en meer.
"Als ik erachter kan komen of het dossier van een patiënt is gebruikt voor een gezondheidsonderzoek dat verband houdt met een bepaalde ziekte, dan kan ik uitzoeken of die persoon de ziekte heeft, " zei Shmatikov, wiens papier, "Lidmaatschapsinferentie in machine learning, " ontving de Caspar Bowden Award voor uitmuntend onderzoek naar privacyverbeterende technologieën, uitgereikt op het Privacy Enhancing Technologies Symposium in juli. "Deze informatie is erg gevoelig, en het maakt mensen erg nerveus als je kunt ontdekken dat hun informatie is gebruikt."
Hulpmiddelen waarmee u kunt achterhalen of een record is gebruikt om een algoritme te trainen, kunnen nuttig zijn, hij zei, voor degenen die proberen te achterhalen of hun gegevens zijn misbruikt, zoals wanneer informatie van Facebook werd verkregen door Cambridge Analytica.
In de krant, co-auteur met Reza Shokri en Marco Stronati, vervolgens Cornell Tech postdoctorale onderzoekers, en informatica-promovendus Congzheng Song, de onderzoekers richtten zich op clouddiensten van Google en Amazon, waarmee klanten machine learning-modellen kunnen bouwen op basis van hun eigen gegevens. Google en Amazon onthullen niet hoe deze machine learning-tools werken, maar Shmatikov en zijn team construeerden 'schaduwmodellen' op basis van echte of valse gegevens die de records identificeerden die werden gebruikt om ze met hoge nauwkeurigheid te construeren, waaruit blijkt dat klanten die deze services gebruiken, gemakkelijk hun eigen trainingsgegevens kunnen onthullen.
Een van de redenen waarom deze systemen kwetsbaar zijn, Shmatikov zei, is dat de machines misschien meer leren dan bedoeld. In hun paper van 2017 "Machine learning-modellen die te veel onthouden, " Liedje, Thomas Ristenpart, Cornell Tech universitair hoofddocent informatica, en Shmatikov onderzochten hoe een wijziging in trainingsgegevens voordat deze worden verwerkt ertoe kan leiden dat een machine learning-model de informatie onthoudt en mogelijk lekt.
De mensen die machine learning-modellen maken, kijken over het algemeen alleen of ze werken, en niet of de computer meer leert dan hij moet weten, zei Shmatikov. Bijvoorbeeld, een programma dat afbeeldingen van mensen gebruikt om een bepaald visueel kenmerk te leren herkennen, zoals brillen, kan ook hele gezichten onthouden.
"We kunnen zien of een machine learning-model heeft geleerd hoe het zijn taak moet uitvoeren, maar vandaag hebben we echt geen manier om te meten wat het nog meer heeft geleerd, " zei hij. "Onze hoop is dat wanneer mensen machine learning-technologieën ontwikkelen, ze zich niet alleen concentreren op de fundamentele kwestie van:'Doet dit wat ik wil dat het doet?' maar ze vragen ook 'Lekt het informatie, is het kwetsbaar voor integriteitsaanvallen, is het kwetsbaar om op kwaadaardige manieren door deelnemers te worden ondermijnd?' Ik denk dat dit zal resulteren in veel robuustere en interessantere modellen voor machine learning, en ik denk dat dit begint te gebeuren."
Andere projecten die zijn team nastreeft, zijn onder meer privacyrisico's in collaboratieve machine learning-systemen - systemen die gezamenlijk door meerdere deelnemers zijn gebouwd - en kwetsbaarheden in federatief leren, waar machine learning-modellen worden gecrowdsourcet door maar liefst miljoenen gebruikers.
"Heel binnenkort, alle apps en services die onbewerkte gegevens gebruiken, gaan gebruikmaken van machine learning, " zei hij. "We proberen beter te begrijpen hoe privacy zal evolueren wanneer machine learning alomtegenwoordig wordt."
Wetenschap © https://nl.scienceaq.com