Wetenschap
(L-R) Fuad Jamour, Panos Kalnis en Yanzhao Chen bouwen systemen en algoritmen voor het verwerken en analyseren van zeer grote datasets. Krediet:2019 KAUST
Om een van de belangrijkste obstakels in big-datawetenschap op te lossen, KAUST-onderzoekers hebben een raamwerk gecreëerd voor het doorzoeken van zeer grote datasets dat gemakkelijk op verschillende computerarchitecturen kan worden uitgevoerd. Hun prestatie stelt onderzoekers in staat zich te concentreren op het verbeteren van de zoekmachine, of query-engine, zelf in plaats van nauwgezet te coderen voor specifieke computerplatforms.
Big data is een van de meest veelbelovende maar ook uitdagende aspecten van de informatiezware wereld van vandaag. Terwijl de enorme en steeds groter wordende reeksen informatie, zoals online verzamelde gegevens of genetische informatie, krachtige inzichten zou kunnen bevatten voor de wetenschap en de mensheid, het verwerken en opvragen van al deze gegevens vereist zeer geavanceerde technieken.
Er zijn veel verschillende benaderingen voor het opvragen van big data onderzocht. Maar een van de meest krachtige en computationeel effectieve is gebaseerd op het analyseren van gegevens met een subject-predicaat-object triplestore-structuur van de vorm (bijv. appel, is een, fruit). Deze structuur leent zich om te worden behandeld als een grafiek met randen en hoekpunten, en dit kenmerk is gebruikt om query-engines voor specifieke computerarchitecturen te coderen voor maximale efficiëntie. Echter, dergelijke architectuurspecifieke benaderingen kunnen niet gemakkelijk worden overgezet naar verschillende platforms, het beperken van de mogelijkheden voor innovatie en vooruitgang in analytics.
"Moderne computersystemen bieden diverse platforms en versnellers, en het programmeren ervan kan intimiderend en tijdrovend zijn, " zeggen Fuad Jamour en Yanzhao Chen, doctoraat kandidaten in de groep van Panos Kalnis in het Extreme Computing Research Center van KAUST. "Onze onderzoeksgroep richt zich op het bouwen van systemen en algoritmen voor het verwerken en analyseren van zeer grote datasets. Dit onderzoek speelt in op de wens om een programma één keer te schrijven en het vervolgens op verschillende platforms te gebruiken."
In plaats van de eerder gebruikte grafiek-traversale of uitputtende relationele indexeringsbenaderingen, de groep bevroeg triplestore-gegevens met behulp van een toegepaste wiskundige benadering die sparse-matrix-algebra wordt genoemd.
"Ons artikel beschrijft de eerste onderzoeksengine voor het opvragen van grafieken met matrixalgebra als kern om het probleem van draagbaarheid aan te pakken, ", zegt Jamour. "De meeste bestaande graph-query-engines zijn ontworpen voor afzonderlijke computers of kleine systemen met gedistribueerd geheugen. En het overzetten van bestaande engines naar grote systemen met gedistribueerd geheugen, zoals supercomputers, brengt aanzienlijke technische inspanningen met zich mee. Ons sparse-matrix algebra-schema kan worden gebruikt om schaalbare, draagbare en efficiënte grafische query-engines."
De experimenten van het team op grootschalige echte en synthetische datasets behaalden prestaties die vergelijkbaar zijn met, of beter dan, bestaande gespecialiseerde benaderingen voor complexe vragen. Hun schema heeft ook de capaciteit om op te schalen naar zeer grote computerinfrastructuren die datasets van maximaal 512 miljard triples verwerken.
"Deze ideeën kunnen het bouwen van analysecomponenten in grafiekdatabases met geavanceerde prestaties vergemakkelijken, waar momenteel veel vraag naar is, " zegt Chen.
Zeesponzen blijven zitten met ankers die buigen maar niet breken
Wat is geconserveerd in chemische reacties?
Designer-eiwitten vormen draden en roosters op een mineraal oppervlak
Onderzoekers bootsen twee natuurlijke energieprocessen na met een enkele katalysator
Bubbels helpen nieuwe katalysatoren zichzelf te optimaliseren
Toenemend volume van onderzoek naar wapenbeleid creëert basis voor beleidsbeslissingen
De UFO-waarneming van Missouri in 1973
Klimaatvriendelijke labricultuur is afhankelijk van een energierevolutie, studie zegt:
Methode om te onderzoeken hoe bacteriën reageren op honger, groei van sondecellen
Onderzoekers koppelen realisme aan blockchain-belofte
NIST's volgende generatie atoomklokken ondersteunen mogelijk officiële tijdwaarneming
Waarom je geneigd bent een leugenaar in te huren, en weet het niet eens
Wetenschappers kwantificeren hoe golfkracht kusterosie veroorzaakt
Wetenschap © https://nl.scienceaq.com