Wetenschap
Onderzoekers van ISI en USC Dornsife creëren een nieuw platform om paleoklimatologische gegevens te standaardiseren. Krediet:Cassidy Joyes CC-BY-SA-4.0
Soms kunnen de meest ongerelateerde dingen de meest innovatieve resultaten opleveren. Nemen, bijvoorbeeld, aikido - een Japanse krijgskunst die kan worden vertaald als de "manier om energie te verenigen" - en paleoklimatologie, een wetenschappelijk veld dat de klimaatevolutie onderzoekt.
Julien Emile-Geay, een universitair hoofddocent bij de afdeling Aardwetenschappen aan het USC Dornsife College of Letters, Kunsten en Wetenschappen, kreeg hier direct de smaak van in 2011 toen ik bij een vriend logeerde voor een aikidokamp in San Francisco. Zijn vriend was bezig met het ontwikkelen van semantische databases voor biomedische gegevens en Emile-Geay ontdekte dat deze aanpak ook zou kunnen werken voor de extreem eigenzinnige gegevens die door paleoklimatologen worden verzameld.
Na een toevallige ontmoeting in 2012 met Yolanda Gil, directeur van Knowledge Technologies bij USC's Information Sciences Institute (ISI) en een onderzoeksprofessor bij USC Viterbi's Department of Computer Science, de onderzoekers hebben een voorstel gedaan om Gil's AI-expertise te integreren met Emile-Geay's aardwetenschappelijke achtergrond, het ontwikkelen van een nieuw platform dat paleoklimatologen een manier geeft om de ongelijksoortige datasets van paleoklimaatgegevens te verenigen, aikido-stijl.
Samen met Emile-Geay, de paleoklimatologiegroep omvat Deborah Khider, een postdoc bij USC's Department of Earth Sciences en ISI data scientist, en Nicholas McKay, universitair hoofddocent aan de School of Earth Sciences and Environmental Sustainability aan de North Arizona University. Aan de AI-kant, Gil werkte samen met Daniel Garijo en Varun Ratnakar, computerwetenschapper en onderzoekprogrammeur bij ISI, respectievelijk. De teams werkten aan een nieuwe benadering om paleoklimatologische gegevens te standaardiseren, zodat aardwetenschappers het toekomstige klimaat beter kunnen voorspellen om de oorzaken en gevolgen van klimaatverandering te begrijpen.
Hun onderzoek was een hoofdartikel in de American Geophysicist's Union (AGU) Paleoceanografie en paleoklimatologie tijdschrift en werd benadrukt op de AGU Centennial-conferentie, gehouden van 9-13 december in San Francisco.
The Lone Wranglers
Paleoklimatologie is de studie van de klimaatgeschiedenis, met onderzoekers die imprints en indicatoren gebruiken om vroegere klimaten te reconstrueren. Deze indicatoren zijn meestal fysieke monsters die zijn verzameld uit natuurlijke bronnen, zoals gletsjerijskernen, boomringen, schelpen, grotafzettingen, en sedimenten van meren en oceanen. Na het integreren van de resulterende diverse datasets, onderzoekers kunnen klimaatvariabelen reconstrueren, zoals temperaturen en regenval. Door vroegere klimaten na te bootsen, Aardwetenschappers kunnen toekomstige klimaten voorspellen.
Voorbeeld van peilingen op (a) het LinkedEarth-platform en (b) Twitter (@Linked_Earth). Credit: Paleoceanografie en paleoklimatologie
Echter, ironisch, een groot probleem met het vakgebied ligt in een van zijn sterke punten:de diversiteit aan datasets. Hoewel de verschillende datasets helpen bij het maken van gecompliceerde modelsimulaties om onderzoekers te helpen klimaatprogressie te begrijpen, de eigenaardigheden van elke dataset kunnen moeilijk te integreren zijn.
Aardwetenschappers hebben hun eigen benaderingen, processen, en methoden voor het verzamelen en coderen van gegevens die niet altijd complementair of intuïtief zijn, en het omzetten van de gegevens in een bruikbaar formaat voor onderzoek en analyse, of "gegevensgekibbel, " kan een omslachtige taak zijn. Sommige onderzoekers kunnen tot 80% van hun tijd besteden aan het ruziën van gegevens, zoals het identificeren van uitbijters en ontbrekende waarden of het zoeken naar verspreide records in meerdere databases. De noodzaak van standaardisatie in het veld was duidelijk. "Leven zonder normen is ellendig!" zei Emile-Geay. "Stel je voor dat je voor elk afzonderlijk item in je huis een ander type stekker nodig hebt - dat is momenteel de stand van de paleoklimaatgegevens, mensen in de vroege carrière die hun gegevens willen integreren, dwingen maanden van hun leven te besteden aan het opnieuw uitvinden van het wiel telkens als ze iets doen." Vooral omdat de financiering schaarser wordt, Emile-Geay merkte op, dit gekibbel over gegevens is in wezen tijdverspilling. "We waren het beu en wilden toekomstige generaties behoeden voor het verspillen van hun doctoraatshersenen op die manier."
Een sociaal-technische benadering
Om deze zorgen weg te nemen, de paleoklimatologie- en AI-teams ontwikkelden een nieuw platform. Dit nieuwe platform maakt deel uit van het NSF's LinkedEarth-project (gefinancierd door EarthCube), en is gebaseerd op een "gecontroleerde crowdsourcing"-aanpak, waar de menigte (d.w.z. de paleoklimatologische experts die het systeem gebruiken) termen kunnen ontwikkelen, of eigendommen, om hun gegevens te coderen, die vervolgens onmiddellijk beschikbaar worden gesteld aan andere gebruikers. Door nieuwe eigenschappen te creëren, gebruikers kunnen de juiste termen kiezen om de dataset waarmee ze werken te definiëren.
Het proces wordt gecontroleerd doordat een selecte groep gebruikers die een breed scala aan paleoklimatologische velden vertegenwoordigen, een redactieraad oprichten, die aanvragen voor nieuwe of gewijzigde eigendommen beoordeelt en bepaalt of de voorstellen van de gebruikers moeten worden opgenomen in de Paleoclimate Community-rapportagestandaard, of PaCTS. Alle beslissingen die worden genomen met betrekking tot PaCTS omvatten de inbreng van paleoklimatologische onderzoekers, waardoor het een transparant, inclusieve en bonafide gemeenschapsinspanningen.
Het systeem implementeert AI om verbanden tussen gegevens te leggen en ze toegankelijker te maken. "De AI-technieken die we gebruiken zijn semantische technologieën waarmee we wetenschappelijke kennis kunnen weergeven, " legde Gil uit. "We construeren ook wat we de 'Linked Earth-kennisgrafiek' noemen, die verbindingen tussen datasets uitdrukt, onderzoekers, locaties, publicaties, enz." Ze merkte op dat, aanvullend, gebruikers kunnen "geavanceerde vragen stellen over de ontologieën en kennisgrafiek om gemakkelijk toegang te krijgen tot de gegevens waarin ze geïnteresseerd zijn."
Het platform wordt beschreven als een sociaal-technisch systeem. Naast alle technische aspecten, de aanpak heeft sterke sociale aspecten, omdat de waarde van het platform afhankelijk is van het delen van informatie. Een belangrijke stimulans voor gebruikers is dat ze erkenning krijgen voor alles wat ze bijdragen aan het platform, die wordt bijgehouden en weergegeven op hun profielpagina's. Aanvullend, ze kunnen metadataspecificaties en bestaande datasets uploaden in meerdere standaardformaten, het gemakkelijker maken om bij te dragen aan toegang, en verenig de gegevens.
Voorbeeld van een onderzoeksvraag voor een nieuwe dataset. Het histogram geeft het aantal stemmen op elk platform weer (oranje:LinkedEarth, paars:Twitter, en groen:Google-enquête). Het cirkeldiagram vertegenwoordigt de fractie van de stemmen voor essentieel (groen), aanbevolen (roze), en gewenst (blauw). Credit: Paleoceanografie en paleoklimatologie
De standaard instellen
Het ontwikkelen van het platform was geen wandeling in het park. Khider legde uit, "Een van de uitdagingen was om het raamwerk voor de norm te bedenken, " die bestaat uit drie elementen:gegevensrepresentatie, woordenschat en rapportagevereisten. "De tweede [uitdaging] was om de gemeenschap te betrekken, " vervolgde ze. "We willen allemaal normen om de wetenschap vooruit te helpen, maar niemand wil er echt over praten." Een ander probleem was uitzoeken waar en hoe te beginnen. Zoals Khider opmerkte, "Uiteindelijk, we hebben besloten dat de standaard de behoeften van een specifieke gemeenschap moet weerspiegelen om de meest rigoureuze en opwindende wetenschap te doen."
Er waren ook hindernissen vanuit een AI-perspectief. "De grootste uitdaging is dat wetenschappelijke kennis altijd evolueert, zodat wetenschappers een beter begrip krijgen van de gegevens en hun modellen, ze kunnen veranderen hoe ze willen dat de gegevens worden beschreven en georganiseerd in het Linked Earth-platform, " Gil zei. "[We moesten] de evolutie van de ontologieën en kennisgrafiek accommoderen zonder het werk te verliezen dat gebruikers op het platform hadden gedaan met behulp van eerdere versies van die kennis."
Maar het harde werken werd beloond. Niet verrassend, het platform heeft positieve feedback gekregen van de paleoklimaatgemeenschap. Vanaf 2019, de gecontroleerde crowdsourcing-wiki heeft 692 datasets, met 150 geregistreerde gebruikers en meer dan 50 bijdragers. Meer dan 14, 000 pagina's zijn gemaakt, terwijl de paleoklimatologie- en AI-teams hun werk voortzetten om het platform te verbeteren en meer gebruikers erbij te betrekken.
De erkenning van de AGU kwam nadat het project was uitgevoerd. "De redactie van Paleoceanografie en paleoklimatologie hebben bijgedragen aan het zichtbaar maken van dit project binnen de gemeenschap door het manuscript te selecteren voor hun Grand Challenges-serie, "Khider merkte op. "Als uitgevers aandringen op normen, helpt dit bij de betrokkenheid van de gemeenschap bij de tweede versie van de norm, omdat ze interesse zien in dit soort werk."
Het platform kan ook op andere gebieden worden toegepast. "We gebruiken [het platform] nu om neurowetenschappelijke gegevens te beschrijven in een door de NIH gefinancierd project dat we hebben met de ENIGMA-samenwerking, " zei Gil. "Een nieuw aspect van dit domein is dat elke dataset gegevens beschrijft voor een cohort mensen die deel uitmaken van een onderzoek, en bevat een verzameling waarnemingen en niet alleen een bepaalde."
Bovendien, PaCTS is slechts een derde van het standaardisatieproces, aangezien het goed is voor de rapportagevereisten. Het standaardiseren van gegevensrepresentatie en terminologie ronden het proces af. Dit laatste omvat woordenschat en bijbehorende spelling, Khider merkte op, aangezien de meeste databases identieke concepten bevatten die op verschillende manieren zijn uitgewerkt, wat het zoeken naar een bepaalde dataset uitdagend kan maken. "De meest voor de hand liggende volgende stap is het bouwen van een bibliotheek met voorbeeldnotitieboekjes die laten zien hoe deze standaarden en code helpen bij het oplossen van veelvoorkomende onderzoeksproblemen in de paleoklimatologie, en hoe ze de deur openen naar nieuwe onderzoeken, "Zei Emile-Geay. "Het is nu tijd om deze normen voor [wetenschappers] te laten werken."
Wetenschap © https://nl.scienceaq.com