Wetenschap
De high-tech evolutie van wetenschappelijke informatica. Krediet:US Department of Energy
De wetenschap heeft altijd vertrouwd op een combinatie van benaderingen om een antwoord af te leiden of een theorie te ontwikkelen. De zaden voor Darwins theorie van natuurlijke selectie groeiden onder een Hercules-aggregatie van waarnemingen, gegevens, en experimenteren. De meer recente bevestiging van zwaartekrachtsgolven door de Laser Interferometer Gravitational-Wave Observatory (LIGO) was een decennialang samenspel van theorie, experiment, en rekenen.
Zeker, dit idee ging niet verloren in het Argonne National Laboratory van het Amerikaanse Department of Energy (DOE), die heeft geholpen de grenzen van high-performance computertechnologieën te verleggen via de Argonne Leadership Computing Facility (ALCF).
Realiseren van de belofte van exascale computing, de ALCF ontwikkelt het raamwerk waarmee deze immense rekenkracht kan worden gebruikt voor een geavanceerde combinatie van simulatie, data-analyse, en machinaal leren. Deze inspanning zal ongetwijfeld de manier waarop wetenschap wordt bedreven herkaderen, en doe dat op wereldschaal.
Sinds de oprichting van de ALCF in 2006, de methoden die worden gebruikt om te verzamelen, analyseren en gebruiken van gegevens zijn drastisch veranderd. Waar gegevens ooit het product waren van en beperkt werden door fysieke observatie en experiment, vooruitgang in feeds van wetenschappelijke instrumenten zoals beamlines, botsers, en ruimtetelescopen - om er maar een paar te noemen - hebben de gegevensuitvoer aanzienlijk verhoogd, om plaats te maken voor nieuwe terminologieën, zoals 'big data'.
Hoewel de wetenschappelijke methode intact blijft en het menselijke instinct om grote vragen te stellen nog steeds de drijvende kracht is achter onderzoek, de manier waarop we reageren op deze nieuwe meevaller aan informatie vereist een fundamentele verschuiving in de manier waarop we opkomende computertechnologieën gebruiken voor analyse en ontdekking.
Deze convergentie van simulatie, gegevens, en leren zorgt voor een steeds complexere maar logische feedbacklus.
Verhoogde rekencapaciteit ondersteunt grotere wetenschappelijke simulaties die enorme datasets genereren die worden gebruikt om een machinaal leerproces te voeden, waarvan de uitvoer een verdere en nauwkeurigere simulatie mogelijk maakt. Dit, te, wordt verder aangevuld met gegevens uit waarnemingen, experimenten, enzovoort., om het proces te verfijnen met behulp van datagestuurde benaderingen.
"Hoewel we altijd deze traditie hebben gehad van het uitvoeren van simulaties, we werken al meer dan een paar jaar stapsgewijs om data en leren robuust te integreren, " zegt Michael Papka, ALCF-directeur en plaatsvervangend associate laboratoriumdirecteur voor Computing, Milieu en Life Sciences (CELS).
Om dat doel te bereiken, de faciliteit lanceerde in 2016 haar ALCF Data Science-programma om computationele methoden te verkennen en te verbeteren die gegevensgestuurde ontdekkingen in wetenschappelijke disciplines beter mogelijk zouden kunnen maken. De ALCF heeft onlangs ook zijn Aurora Early Science Program uitgebreid met de toevoeging van 10 nieuwe projecten die zullen helpen de toekomstige exascale supercomputer van de faciliteit voor te bereiden op data- en leerbenaderingen.
En eerder dit jaar het CELS-directoraat kondigde de oprichting aan van de afdelingen Computational Science (CPS) en Data Science and Learning (DSL) om uitdagende wetenschappelijke problemen te onderzoeken door middel van geavanceerde modellering en simulatie, en data-analyse en andere kunstmatige-intelligentiemethoden, respectievelijk.
"Deze gecombineerde inspanningen zullen zich richten op domeinwetenschappen en belangrijke problemen identificeren die kunnen worden aangepakt door een combinatie van simulatie, gegevenswetenschap, en machine learning-benaderingen. Vaak, we zullen gebruik maken van mensen met relevante expertise in meerdere divisies, ", zegt CPS-directeur Paul Messina.
Nu al, deze combinatie van programma's en entiteiten wordt getest en bewezen door middel van studies die het wetenschappelijke spectrum overschrijden, van het begrijpen van de oorsprong van het universum tot het ontcijferen van de neurale connectiviteit van de hersenen.
Convergentie voor een betere toekomst
Gegevens zijn altijd een belangrijke drijfveer geweest in de wetenschap en ja, het is waar dat er een exponentieel groter bedrag is dan er was, zeggen, tien jaar geleden. Maar hoewel de omvang en complexiteit van de nu beschikbare gegevens uitdagingen met zich meebrengt, het biedt ook kansen voor nieuwe inzichten.
Darwins onderzoek was ongetwijfeld big data voor zijn tijd, maar het was het hoogtepunt van bijna 30 jaar nauwgezet verzamelen en analyseren. Hij had het proces mogelijk aanzienlijk verkort als hij toegang had gehad tot krachtige computers, en data-analyse en machine learning-technieken, zoals datamining.
"Deze technieken veranderen de wetenschappelijke methode niet fundamenteel, maar ze veranderen wel de schaal of de snelheid of het soort complexiteit waarmee je kunt omgaan, " merkt Rick Stevens op, CELS associate laboratoriumdirecteur en professor aan de Universiteit van Chicago.
Nemen, bijvoorbeeld, onderzoek naar nieuwe materialen die zijn ontworpen om zonne-energie op te wekken als zonlicht door ramen valt. De technologie is belemmerd door een gebrek aan het juiste kleurstofmolecuul, de ontdekking daarvan vereist de tijdrovende taak van het doorzoeken van stapels scheikundeliteratuur om moleculen met de juiste parameters te vinden.
Chemicus en natuurkundige Jacqueline Cole leidt een samenwerking tussen Argonne en de Universiteit van Cambridge om dergelijke moleculen aan het licht te brengen. Cole heeft een proces in meerdere fasen ontwikkeld dat door simulatie loopt; data-extractie, verrijking, en mijnbouw; materiaalvoorspelling en experimentele validatie.
Het team voert grootschalige simulaties uit op gerichte moleculen om chemische kleurstoffen met belangrijke optische eigenschappen te voorspellen. Uit deze gegevens, moleculen worden geselecteerd voor synthese, en de resulterende chemicaliën worden gefabriceerd in apparaten voor het valideren van hun vooruitzichten in ramen op zonne-energie. De resultaten bepalen of nader onderzoek nodig is.
"Hieraan is een positieve feedbacklus inherent, " zegt ze. "Zelfs als het validatieproces niet goed verloopt, het kan nog steeds enkele nuttige inzichten bieden. We zouden kunnen leren, bijvoorbeeld, dat we de structuur-functierelaties van de moleculen voor een bepaalde toepassing moeten verfijnen of een nieuw type gegevens aan de bestaande gegevens moeten toevoegen."
Een groot deel van de inspanning was gericht op het bouwen van een database van gewenste organische moleculen, waarvan een groot deel is samengesteld door middel van datamining van zo'n 300, 000 gepubliceerde onderzoeksartikelen. Het onderzoek werd gestimuleerd door het Materials Genome Initiative, een overheidsinitiatief om functionele materialen veel sneller op de markt te brengen dan de decennia die het ooit kostte.
"Het voordeel van dit proces is om de oude handmatige beheer van databases echt weg te nemen, dat is een leven lang werken, en reduceer het tot een kwestie van een paar maanden. uiteindelijk, een paar dagen, ' zegt Cole.
Eén machine om ze allemaal te binden
Of het nu gaat om het zoeken naar zeer specifieke kleurstofmoleculen of het begrijpen van de belangrijkste stromingsfysica om efficiëntere windturbinebladen te ontwikkelen, het samensmelten en bloeien van simulatie, gegevens, en leren is alleen mogelijk dankzij de exponentiële en doelbewuste ontwikkeling van krachtige computer- en gegevensleveringssystemen.
"Supercomputer-architecturen worden gestructureerd om ze beter geschikt te maken voor het omgaan met grote hoeveelheden gegevens en om het leren te vergemakkelijken, naast traditionele simulaties, " zegt Venkat Vishwanath, ALCF data sciences leiden. "En we rusten deze machines uit met enorme leidingen waarmee we grote hoeveelheden gegevens van de buitenwereld kunnen streamen, zoals de Large Hadron Collider bij CERN en onze eigen Advanced Photon Source (APS) en maken datagestuurde modellen mogelijk."
Veel huidige architecturen vereisen nog steeds de overdracht van gegevens van computer naar computer, van één automaat, waarvan de enige functie simulatie is, naar een ander die uitblinkt in data-analyse en/of machine learning.
In de afgelopen jaren, Argonne en de ALCF hebben stevig geïnvesteerd in high-performance computing, waardoor ze dichter bij een volledig geïntegreerde machine komen. Het proces versnelde in 2017, met de introductie van het Intel-Cray-systeem, Theta, die in staat is traditionele simulatieruns en machine learning-technieken te combineren.
De ALCF zal helpen bij het stimuleren van simulatie, gegevens, en leren naar een nieuw niveau in 2021, wanneer ze de eerste exascale-machine van het land onthullen, Aurora. Hoewel het een miljard miljard berekeningen per seconde kan uitvoeren, het belangrijkste voordeel kan zijn het vermogen om simulatie uit te voeren en te convergeren, data-analyse, en machine learning onder één kap. Het eindresultaat stelt onderzoekers in staat om nieuwe typen en veel grotere problemen te benaderen en de tijd tot oplossing te verkorten.
"Aurora zal het spel veranderen, ", zegt Papka van de ALCF. "We werken samen met leveranciers Intel en Cray om ervoor te zorgen dat we de wetenschap kunnen ondersteunen door deze samenvloeiing van simulatie, gegevens, en alles te leren op de eerste dag van Aurora's inzet."
Of het nu door Darwin of Turing is, of het nu met krijtbord of ruitjespapier is, enkele van 's werelds grootste wetenschappelijke innovaties waren het product van een of meer vastberaden individuen die heel goed begrepen hoe belangrijk het is om evenwichtige en gevarieerde benaderingen toe te passen om een hypothese te ondersteunen of te weerleggen.
Omdat huidige innovatie wordt gedreven door samenwerking tussen collega's en tussen disciplines, het potentieel voor ontdekking door de pragmatische toepassing van nieuwe computationele middelen, gekoppeld aan een ongeremde gegevensstroom, spreekt tot de verbeelding.
Wetenschap © https://nl.scienceaq.com