science >> Wetenschap >  >> Fysica

Stukje bij beetje datarecords breken

Magnetische banden, opgehaald door robotarmen, worden gebruikt voor langdurige opslag. Krediet:Julian Ordan/CERN

Dit jaar brak het datacenter van CERN zijn eigen record, toen het meer gegevens verzamelde dan ooit tevoren.

In oktober 2017, het datacenter bewaarde de kolossale hoeveelheid van 12,3 petabyte aan data. Om dit in context te plaatsen, één petabyte komt overeen met de opslagcapaciteit van ongeveer 15, 000 64GB-smartphones. De meeste van deze gegevens komen uit de experimenten van de Large Hadron Collider, dus dit record is een direct resultaat van de uitstekende LHC-prestaties, de rest bestaat uit gegevens van andere experimenten en back-ups.

"De afgelopen tien jaar het datavolume dat bij CERN op tape is opgeslagen, groeit bijna exponentieel. Eind juni hadden we al een mijlpaal voor gegevensopslag gepasseerd, met in totaal 200 petabyte aan gegevens permanent gearchiveerd op tape, " legt de Duitse Cancio uit, wie leidt de band, archief &back-ups opslagsectie in de IT-afdeling van CERN.

Het CERN-datacenter vormt het hart van de infrastructuur van de organisatie. Hier worden gegevens van elk experiment bij CERN verzameld, de eerste fase in het reconstrueren van die gegevens wordt uitgevoerd, en kopieën van alle gegevens van de experimenten worden gearchiveerd op tapeopslag voor de lange termijn.

De meeste gegevens die bij CERN worden verzameld, worden voor altijd bewaard, de natuurkundige gegevens zijn zo waardevol dat ze nooit zullen worden verwijderd en moeten worden bewaard voor toekomstige generaties natuurkundigen.

"Een belangrijk kenmerk van het CERN-gegevensarchief is de lange levensduur, Cancio vult aan. "Zelfs nadat een experiment is afgelopen, moeten alle geregistreerde gegevens minimaal 20 jaar beschikbaar blijven, maar meestal langer. Sommige archiefbestanden die door eerdere CERN-experimenten zijn geproduceerd, zijn over verschillende hardware gemigreerd, software en media generaties voor meer dan 30 jaar. Voor archieven zoals die van CERN, die niet alleen bestaande gegevens behouden, maar ook blijven groeien, onze gegevensbehoud is bijzonder uitdagend."

Hoewel tapes misschien klinken als een verouderde opslagmodus, ze zijn eigenlijk de meest betrouwbare en kosteneffectieve technologie voor grootschalige archivering van gegevens, en zijn altijd op dit gebied gebruikt. Eén kopie van gegevens op een band wordt als veel betrouwbaarder beschouwd dan dezelfde kopie op een schijf.

CERN beheert momenteel het grootste wetenschappelijke data-archief in het High Energy Physics (HEP)-domein en blijft innoveren op het gebied van dataopslag, ’ besluit Cancio.