Wetenschap
(L-R) Fuad Jamour, Panos Kalnis en Yanzhao Chen bouwen systemen en algoritmen voor het verwerken en analyseren van zeer grote datasets. Krediet:2019 KAUST
Om een van de belangrijkste obstakels in big-datawetenschap op te lossen, KAUST-onderzoekers hebben een raamwerk gecreëerd voor het doorzoeken van zeer grote datasets dat gemakkelijk op verschillende computerarchitecturen kan worden uitgevoerd. Hun prestatie stelt onderzoekers in staat zich te concentreren op het verbeteren van de zoekmachine, of query-engine, zelf in plaats van nauwgezet te coderen voor specifieke computerplatforms.
Big data is een van de meest veelbelovende maar ook uitdagende aspecten van de informatiezware wereld van vandaag. Terwijl de enorme en steeds groter wordende reeksen informatie, zoals online verzamelde gegevens of genetische informatie, krachtige inzichten zou kunnen bevatten voor de wetenschap en de mensheid, het verwerken en opvragen van al deze gegevens vereist zeer geavanceerde technieken.
Er zijn veel verschillende benaderingen voor het opvragen van big data onderzocht. Maar een van de meest krachtige en computationeel effectieve is gebaseerd op het analyseren van gegevens met een subject-predicaat-object triplestore-structuur van de vorm (bijv. appel, is een, fruit). Deze structuur leent zich om te worden behandeld als een grafiek met randen en hoekpunten, en dit kenmerk is gebruikt om query-engines voor specifieke computerarchitecturen te coderen voor maximale efficiëntie. Echter, dergelijke architectuurspecifieke benaderingen kunnen niet gemakkelijk worden overgezet naar verschillende platforms, het beperken van de mogelijkheden voor innovatie en vooruitgang in analytics.
"Moderne computersystemen bieden diverse platforms en versnellers, en het programmeren ervan kan intimiderend en tijdrovend zijn, " zeggen Fuad Jamour en Yanzhao Chen, doctoraat kandidaten in de groep van Panos Kalnis in het Extreme Computing Research Center van KAUST. "Onze onderzoeksgroep richt zich op het bouwen van systemen en algoritmen voor het verwerken en analyseren van zeer grote datasets. Dit onderzoek speelt in op de wens om een programma één keer te schrijven en het vervolgens op verschillende platforms te gebruiken."
In plaats van de eerder gebruikte grafiek-traversale of uitputtende relationele indexeringsbenaderingen, de groep bevroeg triplestore-gegevens met behulp van een toegepaste wiskundige benadering die sparse-matrix-algebra wordt genoemd.
"Ons artikel beschrijft de eerste onderzoeksengine voor het opvragen van grafieken met matrixalgebra als kern om het probleem van draagbaarheid aan te pakken, ", zegt Jamour. "De meeste bestaande graph-query-engines zijn ontworpen voor afzonderlijke computers of kleine systemen met gedistribueerd geheugen. En het overzetten van bestaande engines naar grote systemen met gedistribueerd geheugen, zoals supercomputers, brengt aanzienlijke technische inspanningen met zich mee. Ons sparse-matrix algebra-schema kan worden gebruikt om schaalbare, draagbare en efficiënte grafische query-engines."
De experimenten van het team op grootschalige echte en synthetische datasets behaalden prestaties die vergelijkbaar zijn met, of beter dan, bestaande gespecialiseerde benaderingen voor complexe vragen. Hun schema heeft ook de capaciteit om op te schalen naar zeer grote computerinfrastructuren die datasets van maximaal 512 miljard triples verwerken.
"Deze ideeën kunnen het bouwen van analysecomponenten in grafiekdatabases met geavanceerde prestaties vergemakkelijken, waar momenteel veel vraag naar is, " zegt Chen.
Wetenschap © https://nl.scienceaq.com