science >> Wetenschap >  >> Elektronica

Kunstmatige intelligentie werpt licht op het dark web

Om gebruikers van verschillende forums te matchen die waarschijnlijk dezelfde persoon zijn, een algoritme berekent overeenkomsten in profielen, zoals hun gebruikersnamen; qua inhoud, zoals soortgelijke formuleringen; en in hun netwerk, zoals de gemeenschap waarmee ze omgaan. Krediet:Massachusetts Institute of Technology

Onder het oppervlakteweb, de openbare vorm van internet die je dagelijks gebruikt om e-mail te checken of nieuwsartikelen te lezen, bestaat een verborgen "donker web". Host naar anoniem, met een wachtwoord beveiligde sites, het dark web is waar criminele marktplaatsen gedijen in de reclame en verkoop van wapens, verdovende middelen, en verhandelde personen. Wetshandhavingsinstanties werken continu om deze activiteiten te stoppen, maar de uitdagingen waarmee ze worden geconfronteerd bij het onderzoeken en vervolgen van de echte mensen achter de gebruikers die op deze sites posten, zijn enorm.

"Het pop-upkarakter van darkweb-marktplaatsen maakt het volgen van hun deelnemers en hun activiteiten uiterst moeilijk, " zegt Charlie Dagli, een onderzoeker in de Artificial Intelligence Technology and Systems Group van MIT Lincoln Laboratory. Dagli verwijst naar de hoge snelheid waarmee darkwebmarkten sluiten (omdat ze worden gehackt, overvallen, verlaten, of opgezet als een "exit scam" waarbij de site opzettelijk wordt afgesloten nadat klanten betalen voor niet-uitgevoerde bestellingen) en nieuwe verschijnen. De korte levensduur van deze markten, van een paar maanden tot een paar jaar, pogingen om hun gebruikers te identificeren belemmeren.

Om deze uitdaging te overwinnen, Lincoln Laboratory ontwikkelt nieuwe softwaretools om oppervlakte- en darkwebgegevens te analyseren.

Deze tools maken gebruik van het enige voordeel dat dit whack-a-mole-achtige probleem biedt:de verbindingen die verkopers en kopers onderhouden over meerdere lagen van het web, van oppervlak naar donker, en op darkwebforums. "Dit constante schakelen tussen sites is nu een vast onderdeel van hoe darkweb-marktplaatsen werken, ' zegt Dagli.

Gebruikers maken voortdurend nieuwe profielen. Hoewel ze mogelijk niet dezelfde gebruikersnamen van site tot site gebruiken, ze houden hun connecties levend door via hun inhoud naar elkaar te signaleren. Deze signalen kunnen worden gebruikt om persona's van dezelfde gebruiker te linken op darkwebforums en, meer onthullend, om persona's op het dark web te koppelen aan het oppervlakteweb om de ware identiteit van een gebruiker te achterhalen.

Het koppelen van gebruikers op het dark web is wat wetshandhavers al proberen te doen. Het probleem is dat de hoeveelheid gegevens die ze handmatig moeten doorlopen - 500, 000 telefoonnummers en 2 miljoen seksadvertenties per maand - is te groot en ongestructureerd om snel connecties te vinden. Dus, slechts een klein percentage van de zaken kan worden vervolgd.

Om het persona-linkingproces te automatiseren, Lincoln Laboratory traint algoritmen voor machine learning om de gelijkenis tussen gebruikers op verschillende forums te berekenen. De berekeningen zijn gebaseerd op drie aspecten van de online communicatie van gebruikers:"Hoe ze zich bij anderen identificeren, waar ze over schrijven, en met wie ze schrijven, ' legt Dagli uit.

Het algoritme krijgt eerst gegevens van gebruikers op een bepaald Forum A en creëert een auteurschapsmodel voor elke gebruiker. Vervolgens, gegevens van gebruikers op Forum B worden vergeleken met alle gebruikersmodellen van Forum A. Om overeenkomsten voor profielinformatie te vinden, het algoritme zoekt naar duidelijke aanwijzingen, zoals veranderingen in de spelling van de gebruikersnaam zoals "sergeygork" op Forum A naar "sergey gorkin" op Forum B, of meer subtiele overeenkomsten zoals 'joe knight' en 'joe nachtmerrie'.

De volgende functie waar het systeem naar kijkt, is inhoudsovereenkomst. Het systeem pikt unieke zinnen op, bijvoorbeeld 'pret in de zon' - die in meerdere advertenties worden gebruikt. "Er wordt veel gekopieerd en geplakt, zodat vergelijkbare fraseringen verschijnen die waarschijnlijk van dezelfde gebruiker zijn, " zegt Dagli. Het systeem zoekt dan naar overeenkomsten in het netwerk van een gebruiker, dat is de kring van mensen waarmee de gebruiker interactie heeft, en de onderwerpen die het netwerk van de gebruiker bespreekt.

Het profiel, inhoud, en netwerkfuncties worden vervolgens samengevoegd tot één enkele output:een waarschijnlijkheidsscore dat twee persona's van twee forums dezelfde echte persoon vertegenwoordigen.

De onderzoekers hebben deze persona-linking-algoritmen getest met zowel open-source Twitter- en Instagram-gegevens als met de hand gelabelde grondwaarheidsgegevens van dark-webforums. Alle gegevens die in dit werk worden gebruikt, zijn verkregen via geautoriseerde middelen. De resultaten zijn veelbelovend. "Elke keer dat we een wedstrijd melden, we hebben 95 procent van de tijd gelijk. Het systeem is een van de beste koppelingssystemen die we in de literatuur kunnen vinden, ' zegt Dagli.

Dit werk is de meest recente ontwikkeling in lopend onderzoek. Van 2014 tot 2017, Lincoln Laboratory heeft bijgedragen aan het Defense Advanced Research Projects Agency (DARPA) Memex-programma. Memex resulteerde in een suite van oppervlakte- en dark-web data-analysesoftware, ontwikkeld in samenwerking met tientallen universiteiten, nationale laboratoria, en bedrijven. Tien laboratoriumtechnologieën die tekst, toespraak, en visuele analyses die voor Memex zijn gemaakt, zijn vrijgegeven als open-sourcesoftware via de DARPA Open Catalog.

Vandaag, meer dan 30 agentschappen wereldwijd gebruiken Memex-software om onderzoeken uit te voeren. Een van de grootste gebruikers, en een belanghebbende in de ontwikkeling van Memex, is de Human Trafficking Response Unit (HTRU) in het Manhattan District Attorney's Office.

Manhattan District Attorney Cyrus Vance Jr. verklaarde in een schriftelijke getuigenis aan het Amerikaanse Huis van Afgevaardigden dat zijn kantoor Memex-tools gebruikte om meer dan 6, Alleen al in 2017 waren er 000 arrestaties wegens tekenen van mensenhandel. "We hebben Memex ook gebruikt in 271 onderzoeken naar mensenhandel en in zes nieuwe aanklachten tegen mensenhandel die in 2017 zijn ingediend. " verklaarde hij. Met de introductie van Memex, door HTRU gescreende prostitutie-arrestaties op indicatoren mensenhandel gestegen van 5 naar 62 procent, en het onderzoek naar prostitutiegerelateerde arrestaties bij de politie van New York steeg van 15 naar 300 per jaar.

Jennifer Dolle, het plaatsvervangend hoofd van HTRU, bezocht het laboratorium om te laten zien hoe de eenheid van deze technologieën heeft geprofiteerd. "We gebruiken deze tools elke dag. Ze hebben de manier waarop we zaken doen op ons kantoor echt veranderd, "Dolle zegt, uitleggend dat voorafgaand aan Memex, een mensenhandelonderzoek kan aanzienlijk langer duren.

Nutsvoorzieningen, Met Memex-tools kan HTRU snel nieuwe gevallen verbeteren en onderzoeken naar sekshandel opzetten op basis van leads die weinig informatie hebben. Bijvoorbeeld, deze tools, waaronder een genaamd TellFinder (gebouwd door Memex-bijdrager Uncharted Software) voor indexering, samenvatten, en het doorzoeken van gegevens over seksadvertenties—zijn gebruikt om aanvullende, minderjarige slachtoffers uit gegevens in één online prostitutieadvertentie. "Deze extra onderzoeksaanwijzingen stellen HTRU in staat om mensenhandelaars te vervolgen voor gewelddadige aanklachten en deze beklaagden verantwoordelijk te houden voor de ware aard van de misdaden die ze begaan tegen kwetsbare slachtoffers, ' zegt Dolle.

Onderzoekers blijven leren hoe opkomende technologieën kunnen worden afgestemd op wat bureaus nodig hebben en voor hoe het dark web werkt. "Datagestuurde machine learning is een aantoonbaar belangrijk instrument geworden voor wetshandhaving om illegale onlinemarktplaatsen op het dark web te bestrijden, " zegt LinLi, een hoofdonderzoeker van dit continue werk in het Human Dynamic Dark Networks-programma van het laboratorium, die wordt gefinancierd door het Technology Office van het laboratorium. "Maar, enkele van de voortdurende uitdagingen en onderzoeksgebieden zijn onder meer het vergroten van ons begrip van de vraageconomie, het verstoren van de aanbodeconomie, en het verkrijgen van een beter algemeen situationeel bewustzijn."

Een beter begrip van hoe de vraag- en aanbodketens van de darkweb-economie werken, zal het team helpen technologieën te ontwikkelen om deze ketens te verstoren. Een deel van het doel is om de risico's van deelname aan deze illegale economie te vergroten; het koppelen van persona's op het dark web aan die op het oppervlakteweb is een potentieel krachtige tactiek.

"Deze snelgroeiende illegale economie werd door DARPA getoond om terroristische activiteiten te financieren en door HTRU getoond als een aanjager van moderne slavernij. Het verslaan van terrorisme en het elimineren van slavernij zijn nationale en humanitaire behoeften, " zegt Joseph Campbell, leider van de Artifical Intelligence Technology and Systems Group. "Onze groep heeft buitengewone expertise in AI, machinaal leren, en de analyse van menselijke netwerken op basis van informatie uit meertalige spraak, tekst, en video gecombineerd met netwerkcommunicatie en activiteiten. De state-of-the-art technologieën die we creëren, ontwikkelen, en voorschot worden overgedragen aan onze sponsors, die ze dagelijks gebruiken met een enorme impact voor deze nationale en humanitaire behoeften."

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.