science >> Wetenschap >  >> Elektronica

De volgende generatie tools voor big data-analyse maken het streamen van gegevens in realtime inzichtelijk

Elke Rundensteiner, Rechtsaf, hoogleraar computerwetenschappen aan het Worcester Polytechnic Institute (WPI), en promovendus Allison Rozet, staan ​​naast een autonoom voertuig testbed gebruikt in onderzoek bij WPI. De analysetools die Rundensteiner en Rozet ontwikkelen, kunnen auto's zonder bestuurder veiliger maken door gegevensstreaming van voertuigen in realtime te analyseren. Krediet:Worcester Polytechnic Institute

Een nieuwe analysetool voor big data die wordt ontwikkeld door computerwetenschappers van het Worcester Polytechnic Institute (WPI), zal bedrijven helpen om logisch te zijn, live, van de stortvloed aan gegevens die naar hen toestroomt als water uit een brandslang.

Met een driejarige $ 499, 753 subsidie ​​van de National Science Foundation, Elke Rundensteiner, hoogleraar informatica en directeur van WPI's Data Science Program, leidt een team van informatica- en datawetenschapsstudenten dat een next-generation eventtrendanalysetool bouwt, bekend als SETA (Scalable Event Trend Analytics). Deze open-sourcesoftware wordt niet alleen gebruikt om patronen in realtime te vinden, datastromen met grote volumes ("data in motion"), maar om die patronen te analyseren en ze on-the-fly te begrijpen voor just-in-time besluitvorming.

SETA kan grote bedrijven, sociale media websites, fraudedetectiecentra, autonome voertuignetwerken, regeringen, en andere gebruikers om de continue stroom van big data te benutten terwijl deze binnenstroomt en deze om te zetten in bruikbare inzichten die hen in staat zouden kunnen stellen om steeds responsiever en concurrerender te zijn. "In een wereld waar big data steeds sneller wordt in volume en snelheid, real-time streaming data-analyse is steeds belangrijker geworden, " zei Rundensteiner, een internationaal erkende expert in schaalbare datastroomverwerking.

Gebeurtenisverwerking is een manier om binnenkomende informatiestromen te volgen en te analyseren, zoals online aankopen, de stijging en daling van een aandelenkoers, de tijdsduur dat gebruikers op een website blijven, of dat gezondheidswerkers hun handen wassen voordat ze de kamers van patiënten betreden. Het draait allemaal om het markeren van belangrijke gebeurtenissen in de binnenkomende gegevens, zodat een organisatie er in realtime op kan reageren. SETA kan complexe vragen en analyses afhandelen, terwijl gebruikers samengevatte inzichten goedkoper en sneller worden geboden dan momenteel mogelijk is.

De meeste bestaande tools voor gegevensanalyse zijn niet ontworpen om te werken met streaminggegevens, Rundensteiner opgemerkt. In plaats daarvan, informatie moet worden opgeslagen in een statische database voordat deze kan worden geanalyseerd, het introduceren van een vertraging die de snelle detectie zou kunnen belemmeren, bijvoorbeeld, van het begin van een infectieziekte-uitbraak in een ziekenhuis. De tools van Rundensteiner werken op de gegevens terwijl ze worden gegenereerd, waardoor zelfs complexe patronen in realtime kunnen worden opgemerkt, zodat kritische beslissingen snel kunnen worden genomen.

"Datastromen nemen dramatisch toe, overweldigende bedrijven die hun gegevens niet in realtime kunnen begrijpen, " zei Rundensteiner. "Door manieren te vinden om met deze livestreams om te gaan, we zijn baanbrekend in data-analyse. Je zou al deze big data in een statische database kunnen stoppen en er later naar kunnen kijken, maar als u een frauduleuze creditcardaankoop wilt betrappen terwijl deze plaatsvindt of een netwerk van autonome auto's wilt waarschuwen voor een naderend ongeval, je moet die informatie analyseren terwijl deze binnenstroomt met een snelheid van tienduizenden stukjes data per microseconde."

Met de nieuwe onderscheiding Rundensteiner zal voortbouwen op haar eerdere door NSF gesponsorde onderzoek naar analyse van evenementenstromen, die zich richtte op het vinden van patronen in streaminggegevens. Dat werk (in samenwerking met oud-promovendi, Olga Poppe, een onderzoekswetenschapper bij Microsoft Gray Systems Lab, Chuan Lei, een onderzoeksmedewerker bij het IBM Almaden Research Center, en Di Wang, een onderzoekswetenschapper bij Facebook), produceerde analysetools waarmee gebruikers een gegevensstroom konden opvragen voor relatief eenvoudige gebeurtenisreeksen. Maar als de software veel exemplaren van dezelfde of vergelijkbare reeksen vond en ze allemaal weergaf, de gebruiker zou vaak overweldigd raken en de significante patronen of de algemene trends in patronen missen.

In plaats van gedetecteerde sequenties één voor één weer te geven, de nieuwe tool die Rundensteiner aan het ontwikkelen is, zal die patronen aggregeren en de gebruiker laten zien hoe vaak ze voorkomen. "Door een piek van abnormale activiteit te vertonen, het systeem laat je heel snel zien wat er aan de hand is, " zei ze. "Soms ben ik meer geïnteresseerd in de afwijking van de typische telling van patronen, omdat ik dan meteen weet of er iets abnormaals aan de hand is. Als één zelfrijdende auto uitwijkt, dat kan niets betekenen. Maar als duizend auto's op hetzelfde stuk weg allemaal afwijkend gedrag vertonen, dan gebeurt er iets echts. Je kunt dan dieper in die specifieke subset van gegevens graven om dit onverwachte gedrag te onderzoeken."

Het ontwikkelen van de tools om dieper in deze patroonaggregaten te graven, is een ander onderdeel van het onderzoek naar SETA. Rundensteiner wil gebruikers in staat stellen om naar veel geavanceerdere patronen te zoeken. Bijvoorbeeld, terwijl haar vorige tool kon worden gebruikt om te zoeken naar een reeks met een vaste lengte (zeg, gevallen waarin een voertuig de remmen activeert, uitwijken, en dan stoppen), ze wil het mogelijk maken, met een enkele eenvoudige stream-query, om reeksen te herkennen met een onbeperkt aantal gevallen (een auto die een onbekend aantal keren uitwijkt, herhaaldelijk remmen, en dan tot stilstand komen, bijvoorbeeld). Hoewel het aantal potentiële overeenkomsten met een dergelijke zoekopdracht exponentieel zou kunnen groeien vanwege de complexiteit van de zoekopdrachttaal, de resultaten beloven nuttiger te zijn, ze zei.

Om nieuwe analysetools voor evenementtrends te maken, Rundensteiner moet eerst een nieuwe querytaal ontwerpen, die wordt gebruikt om patronen in de gegevens te vinden en op te halen. Door gebruikers te laten zoeken naar meer gecompliceerde patronen, de nieuwe taal zal de tool aanzienlijk gebruiksvriendelijker maken. Ze bouwt ook een nieuwe "query engine" om deze geavanceerde zoekopdrachten te verwerken en de gevraagde patronen of gebeurtenissen te vinden. Een gedistribueerde motor, het draait op meerdere servers in een cloudnetwerk, zijn snelheid drastisch verhogen.

"Het bouwen van die motor is een belangrijk onderdeel van het project, "zei ze. "Traditioneel, een engine kan alle antwoorden op een vraag genereren, bewaar ze, en begin ze dan te tellen. Dat is te tijdrovend en te duur. De huidige technologie kan uren duren, of zelfs langer, om een ​​ingewikkelde vraag te verwerken. Die van ons duurt een paar seconden. Het heeft geen zin om deze grote vragen te stellen als je dagen moet wachten op de antwoorden."

De nieuwe analysesoftware voor evenementtrends, die ze samen met Allison Rozet ontwikkelt, een doctoraat kandidaat in datawetenschap, zal worden getest met behulp van real-world datasets en applicaties die worden geleverd door een gezondheidscentrum en een verwerkingsbedrijf voor financiële transacties.

"Op het gebied van de gezondheidszorg dit kan levens redden, " zei Rundensteiner. "We konden patronen detecteren die laten zien hoe de infectie zich verspreidt. We konden zien wanneer, bijvoorbeeld, het personeel trekt geen operatiejassen aan en wast hun handen niet. Zo kunnen we problemen zien terwijl ze zich ontvouwen, zodat we kunnen zien waar de problemen vandaan komen. We maken betere tools om de antwoorden te krijgen die we nodig hebben uit een groeiende stroom van binnenkomende informatie."