science >> Wetenschap >  >> Fysica

Het nieuwe röntgenlasergegevenssysteem van SLAC zal een miljoen afbeeldingen per seconde verwerken

Krediet:Greg Stewart/SLAC National Accelerator Laboratory

Wanneer upgrades naar de röntgenlaser bij het SLAC National Accelerator Laboratory van het Department of Energy voltooid zijn, de krachtige nieuwe machine zal tot 1 terabyte aan gegevens per seconde vastleggen; dat is een datasnelheid die overeenkomt met het streamen van ongeveer duizend volledige films in slechts één seconde, en analyseren elk frame van elke film terwijl ze voorbij zoomen in deze supersnel vooruitspoelende modus.

Gegevensexperts in het laboratorium vinden manieren om met deze enorme hoeveelheid informatie om te gaan, aangezien de upgrades van Linac Coherent Light Source (LCLS) de komende jaren online komen.

LCLS versnelt elektronen tot bijna de lichtsnelheid om extreem heldere röntgenstralen te genereren. Die röntgenstralen tasten een monster af, zoals een eiwit of een kwantummateriaal, en een detector legt een reeks beelden vast die de atomaire beweging van het monster in realtime onthullen. Door deze beelden aan elkaar te rijgen, chemici, biologen, en materiaalwetenschappers kunnen moleculaire films maken van gebeurtenissen zoals hoe planten zonlicht absorberen, of hoe onze medicijnen ziekten helpen bestrijden.

Naarmate LCLS wordt geüpgraded, wetenschappers gaan van 120 pulsen per seconde naar maximaal 1 miljoen pulsen per seconde. Dat levert een 10 op, 000 keer helderdere röntgenstraal die nieuwe studies van systemen mogelijk zal maken die voorheen niet konden worden bestudeerd. Maar het brengt ook een enorme data-uitdaging met zich mee:de röntgenlaser zal honderden tot duizenden keren meer data per bepaalde tijdsperiode produceren dan voorheen.

Om deze gegevens te verwerken, een groep wetenschappers onder leiding van Jana Thayer, directeur van de LCLS Data Systems Division, ontwikkelt nieuwe rekenhulpmiddelen, inclusief computeralgoritmen en manieren om verbinding te maken met supercomputers. Thayer's groep gebruikt een combinatie van computers, data-analyse en machine learning om de patronen in röntgenbeelden te bepalen en vervolgens een moleculaire film aan elkaar te rijgen.

Meegaan met de stroom

Bij LCLS, de gegevens stromen continu. "Als wetenschappers toegang krijgen om een ​​experiment uit te voeren, het is een dag van 12 uur of een nacht van 12 uur, en beperkt tot slechts een paar diensten voordat het volgende team arriveert, " zegt Ryan Coffee, SLAC senior stafwetenschapper. Om efficiënt gebruik te maken van kostbare experimentele tijd, knelpunten moeten volledig worden vermeden om de gegevensstroom en de analyse ervan in stand te houden.

Het streamen en opslaan van de gegevens vormt een grote uitdaging voor netwerk- en computerbronnen, en om de datakwaliteit bijna realtime te kunnen monitoren, moeten de data onmiddellijk worden verwerkt. Een essentiële stap om dit mogelijk te maken, is de hoeveelheid gegevens zoveel mogelijk te verminderen voordat u deze opslaat voor verdere analyse.

Om dit mogelijk te maken, Het team van Thayer heeft on-the-fly datareductie geïmplementeerd met behulp van verschillende soorten compressie om de omvang van de geregistreerde gegevens te verkleinen zonder de kwaliteit van het wetenschappelijke resultaat te beïnvloeden. Een vorm van compressie, veto genoemd, gooit ongewenste gegevens weg, zoals foto's waar de röntgenstralen hun doel hebben gemist. Een ander, genaamd functie extractie, slaat alleen de informatie op die wetenschappelijk van belang is, zoals de locatie en helderheid van een plek in een röntgenfoto.

"Als we alle onbewerkte gegevens hebben opgeslagen, zoals we tot nu toe hebben gedaan, het zou ons een kwart miljard dollar per jaar kosten, ", zegt Thayer. "Onze missie is om erachter te komen hoe we de gegevens kunnen verminderen voordat we ze schrijven. Een van de echt nette, innovatieve onderdelen van het nieuwe datasysteem dat we hebben ontwikkeld, is de pijplijn voor datareductie, die irrelevante informatie verwijdert en de gegevens vermindert die moeten worden overgedragen en opgeslagen."

Koffie zegt, "Dan bespaar je veel op stroom, maar belangrijker, u bespaart op doorvoer. Als u de onbewerkte gegevens via het netwerk moet verzenden, je gaat het volledig overweldigen door elke microseconde afbeeldingen te verzenden."

De groep creëerde ook een tussenplaats om de gegevens te plaatsen voordat ze naar de opslag gaan. Thayer legt uit, "We kunnen niet rechtstreeks naar de opslag schrijven, want als er een storing in het systeem is, het moet pauzeren en wachten. Of als er een netwerkstoring is, dan kunt u gegevens helemaal kwijtraken. Dus, we hebben een kleine maar betrouwbare buffer waarnaar we kunnen schrijven; dan kunnen we gegevens naar permanente opslag verplaatsen."

Innovatie stimuleren

Thayer benadrukt dat het datasysteem is gebouwd om onderzoekers even snel de resultaten van hun werk te geven als het huidige systeem, zodat ze realtime informatie krijgen. Het is ook gebouwd om de uitbreiding van de LCLS-wetenschap voor de komende 10 jaar op te vangen. De grote uitdaging is om de enorme sprong in de datasnelheid bij te houden.

"Als je je voorstelt dat je van het analyseren van 120 foto's per seconde naar 1 miljoen per seconde gaat, het vereist veel meer scrollen, "zegt ze. "Computeren is geen magie - het werkt nog steeds op dezelfde manier - we verhogen alleen het aantal hersenen dat aan elk van de foto's werkt."

Ondersteund door een recente prijs van de DOE, en werken met collega's uit het hele nationale laboratoriumcomplex van DOE, het team is ook op zoek naar kunstmatige intelligentie en machine learning-technieken om de hoeveelheid te verwerken gegevens verder te verminderen, en om interessante kenmerken in de gegevens te markeren zodra ze zich voordoen.

Om de LCLS-gegevensuitdaging te begrijpen, Koffie trekt een analogie met zelfrijdende auto's:"Ze moeten in realtime rekenen:ze kunnen een reeks beelden die zojuist zijn opgenomen niet analyseren en dan zeggen:"We voorspellen dat je links had moeten afslaan op afbeelding 10." De gegevenssnelheid van SLAC is veel hoger dan een van deze auto's zal ervaren, maar het probleem is hetzelfde:onderzoekers moeten hun experiment sturen om de meest opwindende bestemmingen te vinden!"

De upgrades die deze enorme sprong in datasnelheid en prestaties aandrijven, zullen de komende jaren in twee fasen plaatsvinden, inclusief LCLS-II en een upgrade met hoge energie die volgt. Het werk van de data-experts zal ervoor zorgen dat wetenschappers ten volle kunnen profiteren van beide. "Uiteindelijk zal het een dramatisch effect hebben op het soort wetenschap dat we kunnen doen, kansen bieden die vandaag niet mogelijk zijn, ' zegt koffie.