Wetenschap
Het Adaptable IO System (ADIOS) biedt een eenvoudige, flexibele manier voor wetenschappers om de gegevens in hun code te beschrijven die mogelijk moeten worden geschreven, lezen, of verwerkt buiten de lopende simulatie. Krediet:Oak Ridge National Laboratory
Onderzoekers over het hele wetenschappelijke spectrum hunkeren naar gegevens, omdat het essentieel is om de natuurlijke wereld te begrijpen en, door verlenging, wetenschappelijke vooruitgang versnellen. De laatste tijd, echter, de instrumenten van wetenschappelijke inspanningen zijn zo krachtig geworden dat de hoeveelheid gegevens die wordt verkregen uit experimenten en observaties vaak onpraktisch is.
Met andere woorden, het is mogelijk om te veel van het goede te hebben.
Het begrijpen van de huidige ballonvaartdatasets is een grote wetenschappelijke uitdaging op zich geworden, onderzoekers dwingen niet alleen hun domeinwetenschappelijke problemen aan te pakken, maar ook het probleem van het beheren en verwerken van hun steeds groter wordende datasets. Vraag het maar aan onderzoekers van BP, die de taak hebben om aardgas en olie in de grond te vinden en uit te zoeken hoe deze het beste kunnen worden gewonnen.
"Nieuwe technologieën in het veld stellen ons in staat om meer gegevens te verzamelen dan we ooit hadden gedroomd, " zei BP HPC computerwetenschapper Vladimir Bashkardin, verwijzend naar de eigenschappen van ondergrondse vloeistof en gesteenten verkregen via energiereacties op het sonderen van het bedrijf. "We moeten ons vermogen om toegang te krijgen tot grote seismische datasets opschalen, die soms een halve petabyte kan meten."
Om hen bij deze monumentale inspanning te helpen, wendden Bashkardin en zijn collega's zich tot het Oak Ridge National Laboratory van het Department of Energy, thuis naar de top, 's werelds krachtigste en "slimste" computer, en een schat aan expertise over het beheren en verwerken van de grote en complexe wetenschappelijke datasets van vandaag.
Het debuut van Summit was de derde keer dat het laboratorium de snelste supercomputer ter wereld heeft neergezet. Deze systemen zijn gebruikt om enkele van de meest dringende wetenschappelijke uitdagingen van onze tijd aan te pakken, waaronder fusie-energie, medicijnafgifte, en het ontwerp van nieuwe materialen, inspanningen die ORNL ook tot wereldleider hebben gemaakt in de steeds belangrijker wordende arena van big data.
BP-onderzoekers wendden zich tot ORNL Scientific Data Group Leader Scott Klasky en ORNL Scientific Data Management Team Lead Norbert Podhorszki, hoofdonderzoekers achter het Adaptable I/O System (ADIOS), een I/O-middleware die onderzoekers heeft geholpen wetenschappelijke doorbraken te bereiken door een eenvoudige, flexibele manier om gegevens in hun code te beschrijven die mogelijk moeten worden geschreven, lezen, of verwerkt buiten de lopende simulatie.
BP nodigde Klasky en Podhorszki uit in zijn kantoren in Houston om het krachtige computerteam van het bedrijf een tutorial van ADIOS te geven en te demonstreren hoe het hen zou kunnen helpen hun wetenschap te versnellen door te helpen bij het aanpakken van hun grote, unieke seismische datasets.
"De workshop was geweldig, " zei BP HPC Technology Analyst Bosen Du. "Het was een geweldige introductie tot ADIOS, en we zagen zeker volop mogelijkheden om het toe te passen op onze specifieke uitdagingen. Nog beter, Scott en Norbert stelden specifieke vragen om de tutorial aan BP te personaliseren."
Klasky deelde het enthousiasme van Du. "Dit was een van de leukere tutorials die we hebben gegeven vanwege de grote belangstelling van iedereen in de zaal, " hij zei, eraan toevoegend dat de interesse van BP leidde tot wat waarschijnlijk de langste tutorial is die het team ooit heeft gegeven.
Een natuurlijk partnerschap
De reis van Klasky en Podhorszki was het resultaat van een groeiende relatie tussen ORNL en BP.
BP's directeur van HPC, Keith Gray, was al bekend met ORNL's Oak Ridge Leadership Computing Facility, de DOE Office of Science User Facility waar Summit is gevestigd, door de positieve getuigenissen van collega's die hadden deelgenomen aan het Industrial Partnership Program ACCEL (Accelerating Competitiveness through Computational Excellence.
Gray bezocht ORNL twee jaar geleden zelfs om een gastcollege te geven over hoe de behoefte aan datacenters van BP kleiner is, maar vergelijkbaar met die van een centrum als de OLCF, en over het belang van een betrouwbaar datacenter om de toewijding van BP om voorop te lopen op het gebied van supercomputing te ondersteunen technologie.
die relatie, samen met de unieke mogelijkheden van ADIOS, maakte de keuze makkelijk. "We zijn begonnen met onderzoek en ADIOS stond altijd bovenaan de lijst, " zei Grijs, toe te voegen:"Door samen te werken, BP's expertise van wereldklasse in het toepassen van HPC om complexe wetenschappelijke problemen op te lossen, zou het ADIOS-team kunnen helpen om verschillende workflows te begrijpen, omdat ze ons helpen onze gegevens te beheren."
Het beheren van die gegevens is van cruciaal belang vanuit een zakelijk perspectief. In een recent project kreeg het BP-team te maken met een dataset van 500 terabyte. En dat is vóór seismische verwerking, waarna de dataset kan vertienvoudigen.
"Als je iets hebt dat kan schalen, massaal parallelle I/O uitvoeren, en ondersteuning van compressie zou een groot voordeel zijn om ons te helpen onze huidige gegevensproblemen op te lossen, " zei Basjkardin. MGARD, een techniek die gezamenlijk is ontwikkeld door ORNL en Brown University die wordt gebruikt voor lossy compressie van wetenschappelijke gegevens en die wiskundig foutgrenzen garandeert, leek bijzonder goed te passen bij de compressieproblemen van BP, zei Klasky.
Hij voegde eraan toe dat recente wijzigingen in ADIOS, mogelijk gemaakt door het Exascale Computing Project, hebben de SPECFEM3D-Globe seismologiecode, gebruikt door Jeroen Tromp van Princeton, geholpen om een snelheid van meer dan 2 terabyte per seconde te bereiken bij het schrijven van gegevens naar het algemene parallelle bestandssysteem van Summit. Zo'n snelheid zou kunnen leiden tot een verdere samenwerking met het team van Tromp, die ADIOS gebruikt als de I/O-backend, en helpen de gegevensverwerkingscapaciteit voor een groot deel van de seismologische gemeenschap te versterken.
Het oplossen van problemen zoals I/O-knelpunten betekent een kortere doorlooptijd voor gegevensanalyse, waardoor het bedrijf verschillende ideeën zou kunnen onderzoeken, knelpunten te identificeren en aan te pakken, en een beter begrip van de ondergrond te krijgen. Bij elkaar genomen, deze capaciteiten kunnen enorme doorbraken opleveren voor het onderzoeksprogramma van BP.
Maar een succesvolle implementatie van ADIOS in de huidige I/O-code van BP, het Data Dictionary-systeem genoemd, op korte termijn ook gunstig zou zijn. Bijvoorbeeld, het zou hun team waardevol inzicht geven in de vraag of ze de juiste technologieën en strategieën nastreven om te slagen.
"Het kan ons helpen overwegen om extra bestandssystemen te bouwen om meer bandbreedte te leveren dan onze huidige clusters, " zei Grijs, toe te voegen dat "je geen nieuwe bestandssystemen nodig hebt als je I/O op zijn best is, en we hebben momenteel niet alle benodigde I/O-statistieken." Onderzoekers van het ORNL-team zijn overeengekomen om BP te helpen bij het beoordelen van zijn datastrategie.
Bashkardin toegevoegd:"We worstelen met het extraheren van I/O-bandbreedte uit ons Lustre-bestandssysteem vanwege een aantal factoren. Er valt veel te winnen in deze termen. Zelfs een verdubbeling van de prestaties met een enkele dataset zou een enorme verbetering zijn."
In theorie, ADIOS zou sommige taken kunnen versnellen van dagen naar uren, de workflows van de seismische onderzoekers van BP fundamenteel veranderen. En, volgens BP HPC rekenspecialist Qingquing Liao, De ingebouwde visualisatiemogelijkheid van de middleware is een uitstekend hulpmiddel dat problematische gebieden van de codes en modellen van onderzoekers lokaliseert om hen te helpen het beste te begrijpen hoe ze hun algoritmen kunnen wijzigen. Klasky dankt zijn collega's Lipeng Wan en William Godoy voor deze mogelijkheid, waarmee gebruikers direct kunnen overstappen van op bestanden gebaseerde codekoppeling (bijv. asynchroon koppelen van een code aan visualisatie) naar in-memory koppeling zonder hun code te wijzigen.
Maar voordat ADIOS kan worden geïmplementeerd, het BP-team moet specificeren welke haalbare functies ze willen zien op hun I/O-backend en een nieuwe API-laag creëren met een specifieke set API-doelen.
"Door gebruik te maken van ORNL's ADIOS en samen te werken om het te verbeteren, wordt de expertise van BP in het gebruik van big data om kritieke energieproblemen op te lossen, uitgebreid. ' zei Grijs.
Wetenschap © https://nl.scienceaq.com