Wetenschap
De kans is groot dat je een bericht hebt verzonden of ontvangen dat vervormd is dankzij autocorrectie of automatisch aanvullen. Er zijn honderden memes waarin deze fouten leiden tot miscommunicatie, vaak met hilarische resultaten. Zoals deze. Of deze. Of deze.
Maar het is niet zo grappig als het je wetenschappelijke artikel overkomt. Academische papers bevatten vaak aanvullende bestanden met gegevens, grafieken en grafieken die de conclusie van het document ondersteunen. Veel van die bestanden zijn spreadsheets.
Sinds 2004, wetenschappers hebben gemerkt dat Microsoft Excel, het populaire spreadsheetprogramma, heeft de slechte gewoonte om sommige gennamen te veranderen in andere soorten gegevens. Bijvoorbeeld, genetici gebruiken MARCH1 als afkorting voor membraan-geassocieerde ring-CH-type vinger 1. Maar Excel interpreteert MARCH1 als een datum, automatisch omzetten naar 1 maart of een andere aanduiding voor 1 maart.
Excel identificeert een aantal andere gennamen ten onrechte als coördinaten of drijvende punten. Je zou kunnen uitvinden dat 1 maart eigenlijk 1 MAART is maar hoe zit het met 2.31E+13? Zo converteert Excel de RIKEN-identificatie 2310009E13. RIKEN is een enorm onderzoeksinstituut in Japan dat, onder andere, voert genoomprojecten uit. (Voor de goede orde, we hebben geprobeerd de RIKEN-identificatie in een Excel-spreadsheet in te pluggen en deze automatisch te laten converteren naar 2.31E+19, nog steeds verkeerd en nog steeds niet wat de bedoeling is in die academische papers.)
Ondanks het feit dat onderzoekers dit probleem meer dan tien jaar geleden voor het eerst identificeerden, het blijft vandaag. Onderzoekers Mark Ziemann, Yotam Eren en Assam El-Osta vertoonden meer dan 35, 000 aanvullende bestanden om te zien hoe wijdverbreid het probleem eigenlijk was. Ze ontwikkelden geautomatiseerde software die naar alle gegevens zocht die eruitzagen als een lijst met gennamen. Ze identificeerden 7, 467 genenlijsten die de aanvullende gegevens vertegenwoordigen voor 3, 597 gepubliceerde artikelen in 18 verschillende tijdschriften. Het bleek dat 704 van die gepubliceerde artikelen bestanden bevatten met fouten in het Excel-formaat. Dat is een uitvalpercentage van 19,6 procent. Met andere woorden, bijna een op de vijf gepubliceerde artikelen bevat aanvullende bestanden met Excel-opmaakfouten.
Dit is niet alleen een ongemak. Onderzoekers vertrouwen op gepubliceerde werken om hun eigen projecten te sturen. Als de bestanden fouten bevatten, het kan moeilijk en tijdrovend zijn om het probleem op te lossen en de relevante gegevens te vinden.
Waarom niet gewoon de automatische opmaakfuncties uitschakelen? Volgens het onderzoeksteam er is geen manier om de functies in Excel permanent uit te schakelen. U kunt elke optie mogelijk handmatig wijzigen elke keer dat u een nieuw bestand maakt, maar dat is inefficiënt. Ze wezen erop, echter, dat Google Spreadsheets niet dezelfde benadering van opmaak volgt. Bovendien, als u eerst al uw gegevens in Google Spreadsheets plaatst en deze vervolgens naar een ander spreadsheetprogramma kopieert, de opmaak blijft onaangetast.
Het is een beetje komisch dat een functie die bedoeld is om mensen te helpen spreadsheets te gebruiken, zo'n hoofdpijn veroorzaakt in academische kringen. Misschien zullen toekomstige versies van Excel een optie bevatten om automatische opmaakfuncties voor onbepaalde tijd uit te schakelen. Tot dan, genetici moeten hun werk nog eens goed controleren of overwegen over te stappen op Google Spreadsheets.
Wetenschap © https://nl.scienceaq.com