science >> Wetenschap >  >> Fysica

Solid-state technologie voor big data in de deeltjesfysica

Wanneer wetenschappers toegang nodig hebben tot de opgeslagen bestanden om analyses uit te voeren, een lange robotarm daalt van het plafond, selecteert een band, en brengt de opgeslagen gegevens over naar een harde schijf. Krediet:Reidar Hahn, Fermilab

Bij CERN's Large Hadron Collider, maar liefst 40 miljoen deeltjesbotsingen vinden plaats binnen een seconde in de meer dan 80 miljoen detectiekanalen van de CMS-deeltjesdetector. Deze botsingen creëren een enorme digitale voetafdruk, zelfs nadat computers het hebben doorzocht tot de meest betekenisvolle gegevens. Door eenvoudigweg informatie op te halen, kunnen knelpunten worden bestreden.

CMS-fysici van het Fermi National Accelerator Laboratory van het Amerikaanse ministerie van Energie, waarin een groot deel van de LHC-gegevens wordt opgeslagen, experimenteren nu met het gebruik van NVMe, of niet-vluchtig geheugen express, solid-state technologie om de beste manier te bepalen om toegang te krijgen tot opgeslagen bestanden wanneer wetenschappers ze moeten ophalen voor analyse.

Het probleem met terabytes

De resultaten van het CMS-experiment bij CERN kunnen helpen bij het beantwoorden van enkele van de grootste open vragen in de natuurkunde, zoals waarom er meer materie dan antimaterie in het universum is en of er meer dan drie fysieke dimensies zijn.

Voordat wetenschappers dergelijke vragen kunnen beantwoorden, echter, ze moeten toegang hebben tot de botsingsgegevens die zijn geregistreerd door de CMS-detector, waarvan een groot deel werd gebouwd in Fermilab. Toegang tot gegevens is geenszins een triviale taak. Zonder online datasnoei, de LHC zou 40 terabyte aan data per seconde genereren, genoeg om de harde schijven van 80 gewone laptops te vullen. Een geautomatiseerd selectieproces houdt alleen de belangrijke, interessante botsingen, het aantal opgeslagen gebeurtenissen terugbrengen van 40 miljoen per seconde naar slechts 1, 000.

"We geven om slechts een fractie van die botsingen, dus we hebben een reeks selectiecriteria die beslissen welke we moeten houden en welke we in realtime moeten weggooien, " zei Fermilab-wetenschapper Bo Jayatilaka, die het NVMe-project leidt.

Nog altijd, zelfs bij selectief snoeien, jaarlijks moeten tienduizenden terabytes aan gegevens van alleen de CMS-detector worden opgeslagen. Niet alleen dat, maar om ervoor te zorgen dat geen van de informatie ooit verloren gaat of vernietigd wordt, van elk bestand moeten twee exemplaren worden opgeslagen. Eén exemplaar wordt in zijn geheel bij CERN opgeslagen, terwijl het andere exemplaar wordt verdeeld tussen partnerinstellingen over de hele wereld. Fermilab is de belangrijkste aangewezen opslagfaciliteit in de VS voor het CMS-experiment, met ongeveer 40% van de gegevensbestanden van het experiment op tape.

Een vastestofoplossing

Het Feynman Computing Center in Fermilab herbergt drie grote databibliotheken gevuld met rijen op rijen magnetische banden die gegevens van Fermilabs eigen experimenten opslaan, ook vanuit CMS. Als je alle tape-opslagcapaciteit van Fermilab zou combineren, je zou ongeveer de capaciteit hebben om het equivalent van 13 op te slaan, 000 jaar aan HD-tv-beelden.

"We hebben racks vol servers met harde schijven, en ze zijn het primaire opslagmedium waar wetenschappers daadwerkelijk gegevens van en naar lezen en schrijven, ' zei Jayatilaka.

Maar harde schijven - die de afgelopen 60 jaar als opslagapparaten in computers zijn gebruikt - zijn beperkt in de hoeveelheid gegevens die ze in een bepaalde tijd in applicaties kunnen laden. Dit komt omdat ze gegevens laden door deze op te halen van draaiende schijven, dat is het enige toegangspunt voor die informatie. Wetenschappers onderzoeken manieren om nieuwe soorten technologie te implementeren om het proces te versnellen.

Daartoe, Fermilab installeerde onlangs een enkel rack met servers vol met solid-state NVMe-schijven in zijn Feynman Computing Center om deeltjesfysica-analyses te versnellen.

In een poging om analyses in hoog-energetisch natuurkundig onderzoek te versnellen, Fermilab installeerde onlangs een enkel rack met servers vol solid-state schijven, NVMe genaamd. Krediet:Bo Jayatilaka, Fermilab

Over het algemeen, Solid State-schijven gebruiken compacte elektrische circuits om snel gegevens over te dragen. NVMe is een geavanceerd type solid-state drive die tot 4, 000 megabyte per seconde. Om dat in perspectief te plaatsen, de gemiddelde harde schijf ligt rond de 150 megabyte per seconde, waardoor solid-state de voor de hand liggende keuze is als snelheid je hoofddoel is.

Maar harde schijven zijn nog niet verbannen naar de oudheid. Wat ze missen aan snelheid, ze maken de opslagcapaciteit goed. Momenteel, de gemiddelde opslaglimiet in solid-state schijven is 500 gigabyte, dat is de minimale hoeveelheid opslagruimte die u gewoonlijk op moderne harde schijven aantreft. Om te bepalen of Fermilab meer van hun geheugenopslag op de harde schijf moet vervangen door solid-state schijven, is dus een zorgvuldige analyse van kosten en baten vereist.

Een analyse uitvoeren

Wanneer onderzoekers hun gegevens analyseren met behulp van grote computerservers of supercomputers, ze doen dit meestal door achtereenvolgens delen van die gegevens uit de opslag op te halen, een taak die zeer geschikt is voor harde schijven.

"Tot nu toe, we zijn erin geslaagd om harde schijven te gebruiken in de fysica met hoge energie, omdat we de neiging hebben om miljoenen gebeurtenissen af ​​te handelen door elke gebeurtenis één voor één te analyseren, "Jayatilaka zei. "Dus op elk willekeurig moment, je vraagt ​​maar om een ​​paar stukjes data van elke individuele harde schijf."

Maar nieuwere technieken veranderen de manier waarop wetenschappers hun gegevens analyseren. machinaal leren, bijvoorbeeld, komt steeds vaker voor in de deeltjesfysica, speciaal voor het CMS-experiment, waar deze technologie verantwoordelijk is voor het geautomatiseerde selectieproces waardoor slechts een klein deel van de datawetenschappers geïnteresseerd is om te studeren.

Maar in plaats van toegang te krijgen tot kleine hoeveelheden gegevens, algoritmen voor machine learning moeten herhaaldelijk toegang hebben tot hetzelfde stuk gegevens, of het nu is opgeslagen op een harde schijf of een solid-state schijf. Dit zou niet zo'n probleem zijn als er maar een paar processors waren die toegang probeerden te krijgen tot dat datapunt, maar in hoge-energiefysica berekeningen, er zijn duizenden processors die strijden om tegelijkertijd toegang te krijgen tot dat datapunt.

Dit kan snel leiden tot knelpunten en lage snelheden bij het gebruik van traditionele harde schijven. Het eindresultaat is langzamere rekentijden.

Onderzoekers van Fermilab testen momenteel NVMe-technologie op het vermogen om het aantal van deze dataknelpunten te verminderen.

De toekomst van computergebruik bij Fermilab

De opslag- en rekenkracht van Fermilab zijn veel meer dan alleen een krachtpatser voor het CMS-experiment. De R&D-inspanningen voor CMS-computing leggen ook de basis voor het succes van het komende High-Luminosity LHC-programma en stellen de internationale, Door Fermilab gehost Deep Underground Neutrino-experiment, die beide eind 2020 beginnen met het verzamelen van gegevens.

Door het werk van Jayatilaka en zijn team kunnen natuurkundigen ook bepalen waar NVMe-schijven zich het meest moeten bevinden, hetzij bij Fermilab of bij opslagfaciliteiten van andere LHC-partnerinstellingen.

Met de nieuwe servers in de hand, het team onderzoekt hoe de nieuwe solid-state technologie kan worden ingezet in de bestaande computerinfrastructuur bij Fermilab.