Wetenschap
Tegoed:Stuart Miles/Freerange
Als je onder de motorkap van internet kijkt, je zult veel versnellingen vinden die het allemaal mogelijk maken.
Bijvoorbeeld, neem een bedrijf als AT&T. Ze moeten goed begrijpen welke internetgegevens waar naartoe gaan, zodat ze beter kunnen inspelen op verschillende gebruiksniveaus. Maar het is niet praktisch om elk gegevenspakket nauwkeurig te controleren, omdat bedrijven simpelweg geen onbeperkte opslagruimte hebben. (Onderzoekers noemen dit eigenlijk het "Britney Spears-probleem, " genoemd naar de langlopende inspanningen van zoekmachines om trending topics te vinden.)
Daarom, technologiebedrijven gebruiken speciale algoritmen om ruwweg de hoeveelheid verkeer naar verschillende IP-adressen te schatten. Traditionele frequentie-schattingsalgoritmen omvatten "hashing, " of het willekeurig opsplitsen van items in verschillende buckets. Maar deze benadering gaat voorbij aan het feit dat er patronen zijn die kunnen worden ontdekt in grote hoeveelheden gegevens, zoals waarom het ene IP-adres meer internetverkeer genereert dan het andere.
Onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) hebben een nieuwe manier bedacht om dergelijke patronen te vinden met behulp van machine learning.
Hun systeem gebruikt een neuraal netwerk om automatisch te voorspellen of een specifiek element vaak in een datastroom zal voorkomen. Zo ja, het wordt in een aparte emmer met zogenaamde "heavy hitters" geplaatst om op te focussen; als dat niet zo is, het wordt afgehandeld via hashing.
"Het is als een triage-situatie in een eerstehulpafdeling, waar we prioriteit geven aan de grootste problemen voordat we naar de kleinere gaan, " zegt MIT-professor Piotr Indyk, co-auteur van een nieuw artikel over het systeem dat in mei zal worden gepresenteerd op de International Conference on Learning Representations in New Orleans, Louisiana. "Door de eigenschappen van zware slagmensen te leren als ze binnenkomen, we kunnen frequentieschattingen veel efficiënter en met veel minder fouten doen."
Bij testen, Het team van Indyk toonde aan dat hun op leren gebaseerde aanpak meer dan 57 procent minder fouten bevatte bij het inschatten van de hoeveelheid internetverkeer in een netwerk, en meer dan 71 procent minder fouten bij het schatten van het aantal zoekopdrachten voor een bepaalde zoekterm.
Het team noemt hun systeem "LearnedSketch, " omdat ze het zien als een methode om de gegevens in een gegevensstroom efficiënter te "schetsen". het is 's werelds eerste op machine learning gebaseerde benadering voor niet alleen frequentieschatting zelf, maar voor een bredere klasse van zogenaamde "streaming"-algoritmen die in alles worden gebruikt, van beveiligingssystemen tot natuurlijke taalverwerking.
LearnedSketch kan technologiebedrijven helpen om allerlei zinvolle gegevens effectiever te verwerken, van trending topics op Twitter tot pieken in het webverkeer die toekomstige gedistribueerde denial-of-service-aanvallen kunnen suggereren. E-commercebedrijven zouden het kunnen gebruiken om productaanbevelingen te verbeteren:als LearnedSketch ontdekte dat klanten meer vergelijkend winkelen voor huishoudelijke elektronica dan voor speelgoed, het zou automatisch meer middelen kunnen besteden aan het waarborgen van de nauwkeurigheid van zijn frequentietellingen voor elektronica.
"We zijn allemaal bekend met consumentgerichte toepassingen van machine learning, zoals natuurlijke taalverwerking en spraakvertaling, " zegt Sergei Vassilvitskii, een computerwetenschapper die algoritmische machine learning bestudeert en niet betrokken was bij het project. "Deze lijn van werk, anderzijds, is een opwindend voorbeeld van hoe machine learning kan worden gebruikt om het kerncomputersysteem zelf te verbeteren."
Wat ook verrassend is aan LearnedSketch is dat, als het leert hoe items te tellen, de structuur die het leert, kan zelfs worden gegeneraliseerd naar onzichtbare items. Bijvoorbeeld, om te voorspellen welke internetverbindingen het meeste verkeer hebben, het model leert verschillende verbindingen te clusteren door het voorvoegsel van hun bestemmings-IP. Dit komt omdat plaatsen die veel verkeer genereren, zoals grote bedrijven en universiteiten, hebben de neiging om een bepaald voorvoegsel te delen.
"We combineren het model met klassieke algoritmen, zodat ons algoritme natuurlijk de worst-case garanties erft van de klassieke algoritmen, " zegt promovendus Chen-Yu Hsu, co-auteur van het nieuwe artikel. "Dit soort resultaten laten zien dat machine learning een benadering is die kan worden gebruikt naast de klassieke algoritmische paradigma's zoals 'verdeel en heers' en dynamisch programmeren."
Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.
Fluor maakt scheidingsvrije chirale chromatografische analyse mogelijk
Nieuwe 3D-printmethode kan materiaal achter vitale medische isotoop transformeren
Elektrochemie opent pad naar duurzame bron van sulfonamiden voor medicijnfabrikanten
Wetenschappers onderzoeken de chemie van een enkel batterij-elektrodedeeltje, zowel van binnen als van buiten
Hoe te titreerbare zuurgraad te meten
Diagnose van blootstelling aan stedelijke luchtvervuiling met nieuwe precisie
Onderzoekers lokaliseren oorzaak van dodelijke muistroom in Lake Michigan
Ruiveren kunnen vogels helpen om te gaan met milieuverontreinigende stoffen
Hoe verschillen slib en zand als ze met de stroom meegaan?
De belangrijkste biotische en abiotische componenten van het ecosysteem van het Great Barrier Reef
Zuurstof wapenen om infecties en ziekten te doden
Ultrasnelle kwantumsimulaties:een nieuwe draai aan een oude benadering
Antarctische ijsplaat zingt terwijl wind over het oppervlak raast
Pandemie stelt nationale wiskunde uit, leestoetsen tot 2022
Hoe plastic flessen opnieuw vorm te geven
Ruimtewandelaars nemen extra veiligheidsmaatregelen voor giftige ammoniak
India begint aardverschuiving, opruimen van overstromingen terwijl dodelijke moessonregens afnemen
Onderzoekers ontdekken dat elektronenchiraliteit in grafeen de stroomstroom beïnvloedt
Wetenschap © https://nl.scienceaq.com