Wetenschap
Onderzoekers hebben een nieuw open-source datamanagementsysteem voor wetenschappers ontwikkeld, in de hoop dat het systeem de samenwerking zou vergemakkelijken. Krediet:Markus Spiske op Unsplash
Gegevens vormen vaak de kern van wetenschap:onderzoekers volgen snelheden, meet licht afkomstig van sterren, analyseer de hartslag en het cholesterolgehalte en scan het menselijk brein op elektrische impulsen.
Maar vaak, het delen van die gegevens met andere wetenschappers - of met peer-reviewed tijdschriftredacteuren, of financiers - is moeilijk. De software kan eigendom zijn, en onbetaalbaar in aanschaf. Het kan jaren van training vergen voordat iemand de software kan beheren en begrijpen. Of misschien is het bedrijf dat de software heeft gemaakt failliet gegaan.
Een onderzoeksteam heeft een open-source datamanagementsysteem ontwikkeld waarvan de wetenschappers hopen dat het al die problemen zal oplossen. De onderzoekers schetsten hun systeem vandaag in het tijdschrift PLOS EEN .
"We wilden een bestandsindeling en een datasetmodel maken dat de meeste datasets waar we aan werken, zou omvatten, op alle instrumenten in een lab, " zei Philip Grandinetti, hoogleraar scheikunde aan de Ohio State University en senior auteur van het artikel. "Er is een al lang bestaand probleem, alomtegenwoordig onder wetenschappers, dat u een instrument van meerdere miljoenen dollars koopt en de bedrijven die dat instrument maken hun eigen eigen formaat hebben, en het is een nachtmerrie om met iemand anders te delen."
Grote datasets zijn lastig te delen, gedeeltelijk omdat software vaak eigendom is, maar ook deels omdat de bestanden vaak zo groot zijn dat ze moeilijk te delen zijn in een e-mail of via een cloudgebaseerde server. En zelfs als de bestanden kunnen worden geëxporteerd als een bestandstype dat kan worden gedeeld, belangrijke metadata - de dingen die verklaren wat de dataset eigenlijk is - gaan vaak verloren.
hun systeem, die Grandinetti en collega's het "Core Scientific Data Model, " is ontworpen om complexe datasets eenvoudig te delen, zonder enorme bestanden die veel bandbreedte en ruimte op de harde schijf in beslag nemen, en zonder metadata te verliezen. Overweeg een dataset met luchttemperatuur, luchtdruk, windsnelheid en zonnestroom - dit systeem kan het aan. Of kijk eens naar de afmetingen en kleur van licht afkomstig van een ster in een ver sterrenstelsel - dit systeem kan het aan.
"Je hebt een dataset nodig die ongelooflijk flexibel is in zijn vermogen om al die dingen in één bestandsformaat te houden zonder informatie te verliezen, "Zei Grandinetti. "Dus het idee is dat we een model hebben gemaakt waarvan we dachten dat het flexibel genoeg was om dat te doen."
Het team van de Ohio State University, in samenwerking met professor Thomas Vosegaard aan de Universiteit van Aarhus in Denemarken, en Dr. Dominique Massiot aan de Universiteit van Orléans in Frankrijk, ingebouwde software die op een Mac of pc kan draaien. Ze uploadden het naar het web en maakten de code open-source (wat betekent dat iedereen ernaar kan kijken, gebruik het, en download het gratis.) De publicatie in PLOS EEN is opzettelijk:het tijdschrift is ook voor iedereen beschikbaar, gratis.
En, de onderzoekers hopen, het systeem kan een eenvoudig, gratis manier om meerdere soorten gegevens op één plek te combineren.
"We bestuderen meerdere datasets als wetenschappers - en als wetenschapper zelf, Ik zou graag de gegevens uit al die bestanden willen halen en ze samenvoegen op een manier waar ik mee kan werken, " zei Deepansh Srivastava, een postdoctoraal onderzoeker in de groep van Grandinetti.
"In plaats van data te zoeken en uit datasets te plukken, als we het eenvoudig konden exporteren als dit ene bestandstype - als een kernbestandstype voor wetenschappelijke gegevens - zouden we in een gemeenschappelijk systeem kunnen werken."
Wetenschap © https://nl.scienceaq.com