Wetenschap
Tegoed:Stuart Miles/Freerange
Als je onder de motorkap van internet kijkt, je zult veel versnellingen vinden die het allemaal mogelijk maken.
Bijvoorbeeld, neem een bedrijf als AT&T. Ze moeten goed begrijpen welke internetgegevens waar naartoe gaan, zodat ze beter kunnen inspelen op verschillende gebruiksniveaus. Maar het is niet praktisch om elk gegevenspakket nauwkeurig te controleren, omdat bedrijven simpelweg geen onbeperkte opslagruimte hebben. (Onderzoekers noemen dit eigenlijk het "Britney Spears-probleem, " genoemd naar de langlopende inspanningen van zoekmachines om trending topics te vinden.)
Daarom, technologiebedrijven gebruiken speciale algoritmen om ruwweg de hoeveelheid verkeer naar verschillende IP-adressen te schatten. Traditionele frequentie-schattingsalgoritmen omvatten "hashing, " of het willekeurig opsplitsen van items in verschillende buckets. Maar deze benadering gaat voorbij aan het feit dat er patronen zijn die kunnen worden ontdekt in grote hoeveelheden gegevens, zoals waarom het ene IP-adres meer internetverkeer genereert dan het andere.
Onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) hebben een nieuwe manier bedacht om dergelijke patronen te vinden met behulp van machine learning.
Hun systeem gebruikt een neuraal netwerk om automatisch te voorspellen of een specifiek element vaak in een datastroom zal voorkomen. Zo ja, het wordt in een aparte emmer met zogenaamde "heavy hitters" geplaatst om op te focussen; als dat niet zo is, het wordt afgehandeld via hashing.
"Het is als een triage-situatie in een eerstehulpafdeling, waar we prioriteit geven aan de grootste problemen voordat we naar de kleinere gaan, " zegt MIT-professor Piotr Indyk, co-auteur van een nieuw artikel over het systeem dat in mei zal worden gepresenteerd op de International Conference on Learning Representations in New Orleans, Louisiana. "Door de eigenschappen van zware slagmensen te leren als ze binnenkomen, we kunnen frequentieschattingen veel efficiënter en met veel minder fouten doen."
Bij testen, Het team van Indyk toonde aan dat hun op leren gebaseerde aanpak meer dan 57 procent minder fouten bevatte bij het inschatten van de hoeveelheid internetverkeer in een netwerk, en meer dan 71 procent minder fouten bij het schatten van het aantal zoekopdrachten voor een bepaalde zoekterm.
Het team noemt hun systeem "LearnedSketch, " omdat ze het zien als een methode om de gegevens in een gegevensstroom efficiënter te "schetsen". het is 's werelds eerste op machine learning gebaseerde benadering voor niet alleen frequentieschatting zelf, maar voor een bredere klasse van zogenaamde "streaming"-algoritmen die in alles worden gebruikt, van beveiligingssystemen tot natuurlijke taalverwerking.
LearnedSketch kan technologiebedrijven helpen om allerlei zinvolle gegevens effectiever te verwerken, van trending topics op Twitter tot pieken in het webverkeer die toekomstige gedistribueerde denial-of-service-aanvallen kunnen suggereren. E-commercebedrijven zouden het kunnen gebruiken om productaanbevelingen te verbeteren:als LearnedSketch ontdekte dat klanten meer vergelijkend winkelen voor huishoudelijke elektronica dan voor speelgoed, het zou automatisch meer middelen kunnen besteden aan het waarborgen van de nauwkeurigheid van zijn frequentietellingen voor elektronica.
"We zijn allemaal bekend met consumentgerichte toepassingen van machine learning, zoals natuurlijke taalverwerking en spraakvertaling, " zegt Sergei Vassilvitskii, een computerwetenschapper die algoritmische machine learning bestudeert en niet betrokken was bij het project. "Deze lijn van werk, anderzijds, is een opwindend voorbeeld van hoe machine learning kan worden gebruikt om het kerncomputersysteem zelf te verbeteren."
Wat ook verrassend is aan LearnedSketch is dat, als het leert hoe items te tellen, de structuur die het leert, kan zelfs worden gegeneraliseerd naar onzichtbare items. Bijvoorbeeld, om te voorspellen welke internetverbindingen het meeste verkeer hebben, het model leert verschillende verbindingen te clusteren door het voorvoegsel van hun bestemmings-IP. Dit komt omdat plaatsen die veel verkeer genereren, zoals grote bedrijven en universiteiten, hebben de neiging om een bepaald voorvoegsel te delen.
"We combineren het model met klassieke algoritmen, zodat ons algoritme natuurlijk de worst-case garanties erft van de klassieke algoritmen, " zegt promovendus Chen-Yu Hsu, co-auteur van het nieuwe artikel. "Dit soort resultaten laten zien dat machine learning een benadering is die kan worden gebruikt naast de klassieke algoritmische paradigma's zoals 'verdeel en heers' en dynamisch programmeren."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Wetenschap © https://nl.scienceaq.com