science >> Wetenschap >  >> Elektronica

Supercomputing center dataset heeft als doel AI-onderzoek naar het optimaliseren van high-performance computersystemen te versnellen

Krediet:Pixabay/CC0 Publiek domein

Toen het MIT Lincoln Laboratory Supercomputing Center (LLSC) in 2019 zijn TX-GAIA-supercomputer onthulde, bood het de MIT-gemeenschap een krachtige nieuwe bron voor het toepassen van kunstmatige intelligentie in hun onderzoek. Iedereen bij MIT kan een taak indienen bij het systeem, dat via triljoenen bewerkingen per seconde modellen traint voor uiteenlopende toepassingen, zoals het opsporen van tumoren in medische beelden, het ontdekken van nieuwe medicijnen of het modelleren van klimaateffecten. Maar met deze grote kracht komt de grote verantwoordelijkheid om het op een duurzame manier te beheren en te exploiteren - en het team zoekt naar manieren om te verbeteren.

"We hebben deze krachtige rekentools waarmee onderzoekers ingewikkelde modellen kunnen bouwen om problemen op te lossen, maar ze kunnen in wezen worden gebruikt als zwarte dozen. Wat daarin verloren gaat, is of we de hardware daadwerkelijk zo effectief mogelijk gebruiken", zegt Siddharth Samsi , een onderzoekswetenschapper in de LLSC.

Om inzicht te krijgen in deze uitdaging, heeft de LLSC het afgelopen jaar gedetailleerde gegevens verzameld over het gebruik van TX-GAIA. Meer dan een miljoen gebruikerstaken later heeft het team de dataset open source vrijgegeven aan de computergemeenschap.

Hun doel is om computerwetenschappers en datacenteroperators in staat te stellen de mogelijkheden voor datacenteroptimalisatie beter te begrijpen - een belangrijke taak aangezien de verwerkingsbehoeften blijven groeien. Ze zien ook mogelijkheden om AI in het datacenter zelf te benutten door de gegevens te gebruiken om modellen te ontwikkelen voor het voorspellen van faalpunten, het optimaliseren van taakplanning en het verbeteren van de energie-efficiëntie. Hoewel cloudproviders actief werken aan het optimaliseren van hun datacenters, stellen ze hun gegevens of modellen niet vaak beschikbaar voor de bredere high-performance computing (HPC)-gemeenschap om gebruik van te maken. De release van deze dataset en bijbehorende code probeert deze ruimte op te vullen.

"Datacenters veranderen. We hebben een explosie van hardwareplatforms, de soorten workloads evolueren en het soort mensen dat datacenters gebruikt, verandert", zegt Vijay Gadepally, senior onderzoeker bij de LLSC. "Tot nu toe was er geen geweldige manier om de impact op datacenters te analyseren. We zien dit onderzoek en deze dataset als een grote stap in de richting van het bedenken van een principiële benadering om te begrijpen hoe deze variabelen met elkaar omgaan en vervolgens AI toe te passen voor inzichten en verbeteringen."

Papers die de dataset en mogelijke toepassingen beschrijven, zijn geaccepteerd op een aantal locaties, waaronder het IEEE International Symposium on High-Performance Computer Architecture, het IEEE International Parallel and Distributed Processing Symposium, de jaarlijkse conferentie van de Noord-Amerikaanse afdeling van de Association for Computational Linguistics, de IEEE High-Performance and Embedded Computing Conference, en de internationale conferentie voor High Performance Computing, Networking, Storage en Analysis.

Werklastclassificatie

Van 's werelds TOP500-supercomputers combineert TX-GAIA traditionele computerhardware (centrale verwerkingseenheden of CPU's) met bijna 900 versnellers voor grafische verwerkingseenheden (GPU's). Deze NVIDIA GPU's zijn gespecialiseerd voor deep learning, de klasse van AI die heeft geleid tot spraakherkenning en computervisie.

De dataset dekt het CPU-, GPU- en geheugengebruik per taak; planningslogboeken; en fysieke monitoringgegevens. Vergeleken met vergelijkbare datasets, zoals die van Google en Microsoft, biedt de LLSC-dataset "gelabelde gegevens, een verscheidenheid aan bekende AI-workloads en meer gedetailleerde tijdreeksgegevens in vergelijking met eerdere datasets. Voor zover wij weten, is het een van de meest uitgebreide en fijnmazige datasets beschikbaar", zegt Gadepally.

Het team verzamelde met name tijdreeksgegevens met een ongekend detailniveau:intervallen van 100 milliseconden op elke GPU en intervallen van 10 seconden op elke CPU, terwijl de machines meer dan 3.000 bekende deep-learningtaken verwerkten. Een van de eerste doelen is om deze gelabelde dataset te gebruiken om de workloads te karakteriseren die verschillende soorten deep-learning banen op het systeem plaatsen. Dit proces zou functies extraheren die verschillen onthullen in de manier waarop de hardware natuurlijke taalmodellen verwerkt versus bijvoorbeeld beeldclassificatie of materiaalontwerpmodellen.

Het team heeft nu de MIT Datacenter Challenge gelanceerd om dit onderzoek te mobiliseren. De uitdaging nodigt onderzoekers uit om AI-technieken te gebruiken om met 95 procent nauwkeurigheid het type taak te identificeren dat is uitgevoerd, met behulp van hun gelabelde tijdreeksgegevens als grondwaarheid.

Dergelijke inzichten kunnen datacenters in staat stellen om de taakaanvraag van een gebruiker beter af te stemmen op de hardware die daarvoor het meest geschikt is, waardoor mogelijk energie wordt bespaard en de systeemprestaties worden verbeterd. Door workloads te classificeren kunnen operators ook snel afwijkingen opmerken die het gevolg zijn van hardwarestoringen, inefficiënte gegevenstoegangspatronen of ongeoorloofd gebruik.

Te veel keuzes

Tegenwoordig biedt de LLSC tools waarmee gebruikers hun taak kunnen indienen en de processors kunnen selecteren die ze willen gebruiken, "maar het is veel giswerk van de kant van gebruikers", zegt Samsi. "Iemand wil misschien de nieuwste GPU gebruiken, maar misschien heeft hun berekening het niet echt nodig en kunnen ze net zo indrukwekkende resultaten behalen op CPU's of machines met een lager vermogen."

Professor Devesh Tiwari van de Northeastern University werkt samen met het LLSC-team aan de ontwikkeling van technieken die gebruikers kunnen helpen hun workloads af te stemmen op de juiste hardware. Tiwari legt uit dat de opkomst van verschillende soorten AI-versnellers, GPU's en CPU's ervoor heeft gezorgd dat gebruikers te veel keuzes hebben gemaakt. Zonder de juiste tools om van deze heterogeniteit te profiteren, lopen ze de voordelen mis:betere prestaties, lagere kosten en hogere productiviteit.

"We zijn bezig met het dichten van deze capaciteitskloof door gebruikers productiever te maken en gebruikers te helpen wetenschap beter en sneller te doen zonder zich zorgen te hoeven maken over het beheer van heterogene hardware", zegt Tiwari. "Mijn doctoraatsstudent, Baolin Li, bouwt nieuwe mogelijkheden en hulpmiddelen om HPC-gebruikers te helpen heterogeniteit bijna optimaal te benutten zonder tussenkomst van de gebruiker, met behulp van technieken die zijn gebaseerd op Bayesiaanse optimalisatie en andere op leren gebaseerde optimalisatiemethoden. Maar dit is slechts de We onderzoeken manieren om heterogeniteit in onze datacenters te introduceren in een principiële benadering om onze gebruikers te helpen het maximale voordeel van heterogeniteit autonoom en kosteneffectief te bereiken."

De classificatie van de werklast is het eerste van vele problemen die zich voordoen bij de Datacenter Challenge. Andere omvatten het ontwikkelen van AI-technieken om het mislukken van taken te voorspellen, energie te besparen, of het creëren van benaderingen voor taakplanning die de efficiëntie van de koeling van datacenters verbeteren.

Energiebesparing

Om onderzoek naar groenere computers te mobiliseren, is het team ook van plan een omgevingsdataset van TX-GAIA-operaties vrij te geven, met de racktemperatuur, het stroomverbruik en andere relevante gegevens.

Volgens de onderzoekers zijn er enorme kansen om de energie-efficiëntie te verbeteren van HPC-systemen die worden gebruikt voor AI-verwerking. Recent werk in de LLSC heeft bijvoorbeeld vastgesteld dat eenvoudige hardware-tuning, zoals het beperken van de hoeveelheid stroom die een individuele GPU kan trekken, de energiekosten van het trainen van een AI-model met 20 procent zou kunnen verlagen, met slechts een bescheiden toename van de rekentijd. "Deze vermindering vertaalt zich in ongeveer een hele week aan huishoudelijke energie voor een tijdstoename van slechts drie uur", zegt Gadepally.

Ze hebben ook technieken ontwikkeld om de nauwkeurigheid van modellen te voorspellen, zodat gebruikers experimenten die waarschijnlijk geen zinvolle resultaten zullen opleveren, snel kunnen beëindigen, waardoor energie wordt bespaard. De Datacenter Challenge zal relevante gegevens delen om onderzoekers in staat te stellen andere mogelijkheden te verkennen om energie te besparen.

Het team verwacht dat de lessen die uit dit onderzoek zijn getrokken, kunnen worden toegepast op de duizenden datacenters die worden beheerd door het Amerikaanse ministerie van Defensie.

Andere medewerkers zijn onderzoekers van MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). De Supertech Research Group van professor Charles Leiserson onderzoekt prestatieverhogende technieken voor parallel computing, en onderzoekwetenschapper Neil Thompson ontwerpt studies over manieren om datacentergebruikers klimaatvriendelijker te maken.

Samsi presenteerde dit werk afgelopen voorjaar tijdens de inaugurele AI for Datacenter Optimization (ADOPT'22) workshop als onderdeel van het IEEE International Parallel and Distributed Processing Symposium. De workshop introduceerde hun Datacenter Challenge officieel aan de HPC-gemeenschap.

"We hopen dat dit onderzoek ons ​​en anderen die supercomputercentra runnen in staat zal stellen beter in te spelen op de behoeften van gebruikers en tegelijkertijd het energieverbruik op centrumniveau te verminderen", zegt Samsi. + Verder verkennen

Eerste studies met Quantum Machine Learning bij LHCb

Dit verhaal is opnieuw gepubliceerd met dank aan MIT News (web.mit.edu/newsoffice/), een populaire site met nieuws over MIT-onderzoek, innovatie en onderwijs.