science >> Wetenschap >  >> Elektronica

Versnelde architectuur van de snelste supercomputer van Amerika stimuleert QCD-simulaties

Een conceptuele illustratie van de multigrid-methode voor rooster-QCD toont zowel fijne als grove roosters. De hoogfrequente energiemodi van een proton verschijnen als fuzz op een fijn raster (boven). Het multigrid-proces verloopt soepeler, langere golflengtemodi die kunnen worden vastgelegd met een grover raster, wat minder werk vereist om op te lossen (onder). Het multigrid proces wisselt tussen de grids om het probleem optimaal op te lossen. Krediet:Joanna Griffin, Jefferson Lab

Op zoek naar numerieke voorspellingen voor exotische deeltjes, onderzoekers simuleren atoomvormende quark- en gluondeeltjes meer dan 70 keer sneller op Summit, 's werelds krachtigste wetenschappelijke supercomputer, dan op zijn voorganger Titan in het Oak Ridge National Laboratory (ORNL) van het Amerikaanse Department of Energy (DOE). De interacties van quarks en gluonen worden berekend met behulp van roosterkwantumchromodynamica (QCD) - een computervriendelijke versie van het wiskundige raamwerk dat deze sterke-krachtinteracties beschrijft.

Met nieuwe algoritmen en optimalisaties voor GPU-gebaseerde systemen zoals Summit, computationele fysici Balint Joo van DOE's Jefferson Lab en Kate Clark van GPU-ontwikkelaar NVIDIA combineren twee open-source QCD-codes, Chroma en de QUDA-bibliotheek voor GPU's, op Top. Gelegen aan de Oak Ridge Leadership Computing Facility (OLCF), Summit is een 200 petaflop, IBM AC922-systeem dat in juni werd gelanceerd als het best beoordeelde systeem op de Top500-lijst.

QCD-berekeningen kunnen helpen om ongrijpbare, kortlevende deeltjes die moeilijk te vangen zijn in het experiment. Vooruitgang in QCD-toepassingen voor deze nieuwe generatie supercomputing zal het team ten goede komen, onder leiding van natuurkundige Robert Edwards van Jefferson Lab, in zijn zoektocht om de eigenschappen van exotische deeltjes te ontdekken.

"We krijgen voorspellingen van QCD, " zei Joo. "Waar er theoretische onbekenden zijn, computationele berekeningen kunnen ons energietoestanden en deeltjesverval geven om naar te zoeken in experimenten."

Edwards en Joo werken nauw samen met een deeltjesversneller-experiment bij Jefferson Lab genaamd GlueX, dat een brug slaat tussen theoretische voorspellingen van QCD en experimenteel bewijs.

"GlueX is een vlaggenschipexperiment van de onlangs voltooide upgrade van $ 338 miljoen van de CEBAF-versneller van Jefferson Lab. Het experiment in de nieuwe hal D van het laboratorium gebruikt de elektronenstraal om een ​​intense gepolariseerde fotonenstraal te creëren om deeltjes te produceren, inclusief mogelijk exotische mesonen, " zei Edwards. "Onze QCD-berekeningen informeren en begeleiden deze experimentele zoekopdrachten."

Volle vaart vooruit

Het team kreeg vroege toegang tot Summit om de prestaties van hun code op de systeemarchitectuur te testen. Summit heeft ongeveer een vierde van het aantal knooppunten van de 27-petaflop Titan-supercomputer. Echter, De nodes van Summit, bestaande uit twee IBM Power9 CPU's en zes NVIDIA Tesla V100 GPU's, zijn uitzonderlijk snel en bevatten veel geheugen. inclusief 42 teraflops aan prestaties en 512 gigabyte geheugen per node.

Door een combinatie van hardwareverbeteringen en softwareoptimalisaties, het team verhoogde de doorvoer op Summit negen keer in vergelijking met hun vorige Titan-simulaties, terwijl ze hun oorspronkelijke probleemgrootte comprimeren om acht keer minder GPU's te gebruiken voor een totale prestatieversnelling van ongeveer 72 keer.

In rooster QCD-simulaties, ruimte-tijd wordt weergegeven door een rooster, en wetenschappers maken snapshots van het sterke-krachtveld op de schakels van dit rooster, bekend als meterconfiguraties. Deze eerste stap wordt kalibergeneratie genoemd. Vervolgens, in een stap die bekend staat als de quark-propagatorberekening, onderzoekers introduceren een lading in het ijkveld en lossen een groot stelsel van vergelijkingen op dat aangeeft hoe een quark door ruimte en tijd zou bewegen. In een laatste analysestap, deze quarkpropagators worden gecombineerd in begin- en eindtoestanden van de deeltjes, waaruit energiespectra kunnen worden berekend en gerelateerd aan experimenten.

Om hun code voor Summit voor te bereiden, het team heeft algoritmische verbeteringen aangebracht om de efficiëntie te verhogen. Eerst, ze hebben een adaptieve multigrid-oplosser ontwikkeld in de QUDA-bibliotheek die grove en fijne rasters genereert op basis van lage en hoge energietoestanden, respectievelijk. Het multigrid-proces omvat een opstartfase, die vervolgens wordt gebruikt in oplossingsstappen.

"Summit GPU's zijn zeer goed afgestemd op dit multigrid-algoritme, en we zagen daar versnellingspotentieel, ' zei Clark.

Eerder, de oplossingsstappen zijn geoptimaliseerd voor de GPU's van Titan, en de multigrid-oplosser werd gebruikt voor de quark-propagatiefase van berekeningen die voor elke ijkconfiguratie werden uitgevoerd. Voor Top, het team integreerde de multigrid-oplosser in de initiële fase voor het genereren van ijkpunten.

"In de fase van het genereren van kalibers, meterconfiguraties veranderen snel en vereisen dat het instellingsproces vaak wordt herhaald, " zei Joo. "Daarom, een cruciale optimalisatiestap was om deze installatiefase volledig naar de GPU's te verplaatsen."

Het team zag nog een kans om het genereren van meetconfiguraties te versnellen door andere algoritmische en softwareverbeteringen op te nemen naast de multigrid-oplosser.

Eerst, om de hoeveelheid werk te verminderen die nodig is om van de ene meterconfiguratie naar de andere te gaan, het team implementeerde een force-gradient integrator die gebruikmaakt van een moleculaire dynamische methode die eerder was aangepast voor QCD.

"Het proces is wiskundig vergelijkbaar met het simuleren van moleculen van een gas, dus een procedure voor moleculaire dynamica wordt hergebruikt om elke nieuwe ijkconfiguratie van de vorige te genereren, ' zei Jo.

Tweede, overwegende dat de QUDA-bibliotheek automatisch berekeningen uitvoert die nodig zijn voor het genereren van meterconfiguraties op GPU's, het volledige algoritme heeft veel andere stukjes code die een prestatieknelpunt kunnen veroorzaken als ze niet ook GPU-versneld zijn. Om dit knelpunt te vermijden en de prestaties te verbeteren, het team gebruikte de QDP-Just-in-Time (JIT)-versie van de QDP++-softwarelaag die ten grondslag ligt aan Chroma om alle wiskundige uitdrukkingen volledig op GPU's te laten draaien.

"De verbeteringen in de snelheid van deze optimalisaties stelden ons in staat om een ​​reeks simulaties te starten die we eerder niet hadden kunnen bedenken, " zei Joo. "Op Titan, we zijn al begonnen met een nieuwe run door het ASCR Leadership Computing Challenge-programma met quarks waarvan de massa's meer lijken op die in de natuur, die direct gericht is op ons spectroscopieprogramma bij Jefferson Lab."