science >> Wetenschap >  >> Fysica

CMS geeft meer dan één petabyte aan open data vrij

Een botsingsgebeurtenis geregistreerd door CMS in 2012 met een "Higgs-kandidaat", beschikbaar op het CERN Open Data-portaal met de nieuwste release van CMS Open Data. Krediet:Tom McCauley/CMS/CERN

De CMS-samenwerking bij CERN heeft zojuist ongeveer de helft van de in 2012 verzamelde gegevens openbaar gemaakt door de CMS-detector bij de Large Hadron Collider. Deze release bevat sets die zijn gebruikt om het Higgs-deeltje te ontdekken, en wordt gedeeld via het CERN Open Data-portaal.

Dit is de derde release van CMS Open Data op hoog niveau, na de publicatie van gegevens over 2010 in 2014, en 2012-gegevens in 2016. Deze batch bevat meer dan 550 terabyte aan proton-protonbotsingsgegevens geregistreerd bij een massamiddelpuntsenergie van 8 TeV, evenals ongeveer 510 terabytes aan Monte Carlo-simulatiegegevens.

LHC-gegevens zijn ingewikkeld en groot. CMS-onderzoekers hebben petabytes aan gegevens van botsingen bij de LHC vastgelegd en hebben tot nu toe honderden wetenschappelijke artikelen met hen gepubliceerd. Door de gegevens vrij te geven in het publieke domein, onderzoekers buiten de CMS-samenwerking hebben de mogelijkheid om nieuw onderzoek met hen te doen.

"Onze gegevens zijn een belangrijk onderdeel van de rijke wetenschappelijke erfenis van de CMS Collaboration, " zegt CMS-woordvoerder, Joël Butler. "We willen ervoor zorgen dat ze niet alleen op de lange termijn behouden blijven, maar ook beschikbaar zijn voor het publiek, zodat zowel CMS-leden als externe onderzoekers ze in de toekomst opnieuw kunnen onderzoeken. Dit maakt deel uit van ons streven naar openheid en langetermijnbewaring van gegevens."

Animatie met een "Higgs-kandidaat"-evenement, opgenomen door CMS in 2012 en beschikbaar op het CERN Open Data-portaal met de nieuwste release van CMS Open Data. Krediet:Tom McCauley en Achintya Rao CMS/CERN

Onlangs, de eerste twee van dergelijke onderzoekspapers werden gepubliceerd door een team van theoretici van MIT die geïnteresseerd waren in het uitvoeren van een meting die CMS-wetenschappers zelf niet hadden gedaan:specifiek wilden ze bepaalde substructuren meten in clusters van deeltjes die bekend staan ​​​​als "jets" geproduceerd in proton-protonbotsingen.

De nieuwste release van CMS Open Data biedt ook de fascinerende mogelijkheid om mensen de analyse te laten herhalen die leidde tot de ontdekking van Higgs door dezelfde gegevens te bestuderen die door CMS-wetenschappers werden gebruikt om het bestaan ​​van het deeltje in 2012 aan te kondigen. CMS-doctoraatsstudent Nur Zulaiha Jomhari analyseerde CMS Open Data en produceerde plots die vergelijkbaar waren met die welke werden getoond toen de Higgs-ontdekking werd aangekondigd. Deze analyse is een stuk minder geavanceerd dan de officiële CMS-analyse en wordt niet onderzocht door de bredere CMS-gemeenschap van experts, maar het toont het potentieel van CMS Open Data aan.

Links:De officiële CMS-plot voor het kanaal “Higgs to four leptons”, getoond op de dag van de aankondiging van de ontdekking van Higgs. Rechts:Een soortgelijk plot geproduceerd door Nur Zulaiha Jomhari et al. met behulp van CMS Open Data uit 2011 en 2012. Hoewel de plots op elkaar lijken, de analyse met CMS Open Data gebruikt meer gegevens (bij 8 TeV en in totaal) dan de officiële CMS-versie van de oorspronkelijke ontdekking, maar is een stuk minder geavanceerd en wordt niet onderzocht door de bredere CMS-gemeenschap van experts. Krediet:CMS/CERN

Naast de datasets zelf, het CMS Data Preservation and Open Data-team heeft ook een uitgebreide verzameling aanvullende materialen verzameld, inclusief voorbeeldcode voor het uitvoeren van relatief eenvoudige analyses, evenals metagegevens zoals informatie over hoe gegevens werden geselecteerd en wat de bedrijfsomstandigheden van de LHC waren tijdens het verzamelen van gegevens.

Momenteel, CMS heeft zich ertoe verbonden om tot 50% van de geregistreerde gegevens van elk jaar vrij te geven een paar jaar nadat ze zijn verzameld, zodra CMS-wetenschappers het grootste deel van hun analyse van deze datasets hebben voltooid. "Om onze open data buiten CMS in gebruik te zien, was zeer de moeite waard, " zegt Kati Lassila-Perini, de CMS Data Preservation en Open Access co-coördinator. "Het is een grote motivatie voor ons geweest en we kijken ernaar uit om onze baanbrekende inspanningen voort te zetten om in de komende jaren open data van onderzoekskwaliteit vrij te geven van de LHC."