science >> Wetenschap >  >> anders

De verborgen juweeltjes van verklaringen over toegankelijkheid van gegevens

Soms is het beste deel van het lezen van een wetenschappelijk artikel een onverwacht moment van herkenning - niet in de wetenschap, maar in de menselijkheid van de wetenschappers. Het is in zekere zin geruststellend om kleine afwijkingen te vinden van de bezadigde wetenschappelijke formule:een opmerking die buiten de verwachte syntaxis van Abstract-Introductie-Methoden-Resultaten-Discussie valt. Als wetenschapper in het begin van zijn loopbaan die druk bezig is met het vormgeven van hoofdstukken voor dissertaties in manuscripten, het is leuk om te onthouden dat de #365papers die ik lees de producten zijn van auteurs die, zoals ik, worstelde zich door herzieningen en maakte grapjes met co-auteurs en vond sombere humor in de donkere momenten.

ecologie blogs, twitteren, en de bredere media houden ook van de grillige titels, grappige (en serieuze) erkenningen, gedenkwaardige figuren, en unieke bepalingen van co-auteurschapsvolgorde die zijn verschenen in de pagina's van wetenschappelijke tijdschriften. Ik struikel graag over deze luchtige momenten in mijn TO READ-bestand; afgelopen voorjaar stelde ik het opmaken van mijn proefschrift uit door gretig de sectie Dankbetuigingen te lezen van iedereen met wie ik zelfs vaag een overlap had in mijn Ph.D. programma. Een plaats waar ik niet aan gedacht heb om naar toevallige wetenschappelijke humor te zoeken:de Data Availability Statement. Zoals het blijkt, Ik heb een interessant verhaal gemist.

Een recent PLOS ONE-document was bedoeld om de gegevensbeschikbaarheidsverklaringen van bijna 50, 000 recente PLOS ONE-papieren. Dit klinkt misschien als een saai onderwerp, maar het werk van Lisa Federer en co-auteurs is verrassend boeiend, actueel, en tot nadenken stemmend. In maart 2014 onthulde PLOS een gegevensbeleid dat vereist dat onderzoeksartikelen een verklaring over de beschikbaarheid van gegevens bevatten, waarin de lezers informatie krijgen over hoe ze toegang kunnen krijgen tot de relevante gegevens voor elk artikel. Maar, zoals Federer et al opmerken "'beschikbaarheid' kan worden geïnterpreteerd op manieren die enorm verschillende praktische resultaten hebben in termen van wie toegang heeft tot de gegevens en hoe."

Waarom zijn gegevensbeschikbaarheidsverklaringen van belang? in ecologie, voorstanders van open data pleiten voor reproduceerbaarheid en hergebruik. Zovelen van ons werken aan kleine studiegebieden en verzamelen geïsoleerde spreadsheets met gegevens, en vervolgens publiceren op ons systeem, misschien gooien we een subset van de gegevens die we hebben verzameld in een aanvullend bestand. Maar grote beeldvragen die over schalen heen kijken, ecosystemen, en benaderingen zijn afhankelijk van big data - en big data is vaak een amalgaam van vele kleine datasets van een breed scala aan wetenschappers. Kleine (of elke grootte) datasets die openbaar beschikbaar zijn, en gemakkelijk toegankelijk in datarepository's in plaats van oude labnotes of afgedankte labcomputers, hebben veel meer kans op benen, om opnieuw te gebruiken en opnieuw te testen, en bijdragen aan het veld in het algemeen.

Krediet:Eric Heupel, https://www.flickr.com/photos/eclectic-echoes/

Terwijl PLOS voorop liep op het gebied van verklaringen over gegevenstoegankelijkheid onder peer-reviewed tijdschriften, Federer's beoordeling van de inhoud van deze Data Availability Statements maakt duidelijk dat we ons nog niet in de glanzende toekomst van Open Data bevinden. PLOS' Data Accessibility-beleid "beveelt ten zeerste aan" om gegevens in een openbare repository te deponeren; Federer ontdekte dat slechts 18,2% van de PLOS papers noemden een specifieke repository of bron waar gegevens beschikbaar waren. De meeste verklaringen over gegevenstoegankelijkheid verwijzen de lezer naar de krant zelf of naar aanvullende informatie. Zelfs onder de datarepository-artikelen, sommige verklaringen over gegevenstoegankelijkheid gaven een repository aan, maar bevatten geen URL, DOI, of toegangsnummer - in feite lezers op een wilde gansjacht sturen om hun gegevens in de repository te vinden.

Andere uitspraken lijken te zijn ingevoerd als tijdelijke aanduidingen, mogelijk bedoeld om te worden vervangen bij publicatie van het artikel, zoals "Alle onbewerkte gegevens zijn beschikbaar in de XXX [sic]-database (toegangsnummer(s) XXX, XXX [sic])" of "De gegevens en de volledige set experimentele instructies van deze studie zijn te vinden op: . [Deze link zal openbaar [sic] toegankelijk worden gemaakt na publicatie van dit artikel.]" Deze twee artikelen, gepubliceerd in 2016 en 2015, respectievelijk, op het moment van schrijven nog steeds deze tijdelijke aanduiding-tekst bevatten.

Deze voorbeelden van tijdelijke aanduidingen die in de publicatie terecht zijn gekomen, zijn beschamend, maar menselijk, en zoals Federer opmerkt, Verklaringen over gegevenstoegankelijkheid moeten worden beoordeeld door redacteuren en peer reviewers met dezelfde controle die we toepassen op onderzoeksontwerp, statistische analyse, en citaten.

Ik heb gewerkt aan meta-analyses en projecten die afhankelijk zijn van data uit bestaande digitale archieven. De frustratie van het achtervolgen van aanvullende informatie, Dryad DOI's, en GitHub-adressen die alleen een doodlopende weg of een gebroken corresponderend e-mailadres van de auteur vinden, is een gevoel dat lijkt op grondeekhoorns die halverwege het veldseizoen door de draden van de temperatuurlogger kauwen. Federer merkt op dat het tij aan het keren is naar open data:na een moeizame start in 2014 - het team van Federer heeft veel papers ontleed die waarschijnlijk waren ingediend voordat (maar gepubliceerd nadat) het beleid voor gegevensbeschikbaarheid van kracht werd - in 2015 en 2016 was het percentage papers dat geen Gegevensbeschikbaarheidsverklaring daalt drastisch. In dezelfde periode, Federer merkt een lichte stijging op in het aantal verklaringen dat verwijst naar gegevens in een repository en minder die beweren dat de gegevens op papier staan ​​of - huiveringwekkend - op verzoek beschikbaar zijn.

Op een breder niveau, open data is een nieuw gepolitiseerd onderwerp. De EPA heeft onlangs nieuwe normen voorgesteld die wetenschappelijke studies zouden verbieden om regelgevingsdoeleinden te informeren, tenzij alle onbewerkte gegevens algemeen beschikbaar zijn in het openbaar en kunnen worden gereproduceerd. Dit is niet zozeer een gouden standaard als wel een gag-regel. In een PLOS-redactioneel John P. A. Ioannidis wijst erop dat hoewel "het maken van wetenschappelijke gegevens, methoden, protocollen, software, en scripts die overal verkrijgbaar zijn, is een opwindend, waardig streven" in het elimineren van alles behalve de zogenaamde perfecte wetenschap uit het regelgevingsproces, de EPA verplicht zich tot het nemen van beslissingen die "uniek afhangen van mening en bevlieging". De meeste onbewerkte gegevens uit eerdere onderzoeken zijn niet openbaar beschikbaar - en zoals uit Federer's onderzoek blijkt, zelfs in een tijdperk van verplichte gegevensbeschikbaarheidsverklaringen, open data is nog steeds een werk in uitvoering. En dus sloegen we op - wetenschappers tegen antiwetenschappelijke beheerders van het Environmental Protection Agency, onophoudelijk gedragen ter ondersteuning van het publiceren van toegankelijke, open data als een soort groen licht voor eerder onderzoek.

Dit verhaal is opnieuw gepubliceerd met dank aan PLOS Blogs:blogs.plos.org.