Wetenschap
Wetenschappers worden geconfronteerd met een reproduceerbaarheidscrisis. Krediet:Y Photo Studio/shutterstock.com
Er is een toenemende bezorgdheid onder wetenschappers dat, op veel gebieden van de wetenschap, beroemde gepubliceerde resultaten zijn meestal onmogelijk te reproduceren.
Deze crisis kan ernstig zijn. Bijvoorbeeld, in 2011, Bayer HealthCare beoordeelde 67 interne projecten en ontdekte dat ze minder dan 25 procent konden repliceren. Verder, meer dan twee derde van de projecten vertoonde grote inconsistenties. Recenter, in november, een onderzoek van 28 belangrijke psychologiepapers wees uit dat slechts de helft kon worden gerepliceerd.
Soortgelijke bevindingen worden gerapporteerd over andere gebieden, inclusief geneeskunde en economie. Deze opvallende resultaten brengen de geloofwaardigheid van alle wetenschappers in grote problemen.
Wat veroorzaakt dit grote probleem? Er zijn veel factoren die bijdragen. Als statisticus, Ik zie enorme problemen met de manier waarop wetenschap wordt bedreven in het tijdperk van big data. De reproduceerbaarheidscrisis wordt deels veroorzaakt door ongeldige statistische analyses die gebaseerd zijn op gegevensgestuurde hypothesen - het tegenovergestelde van hoe dingen traditioneel worden gedaan.
Wetenschappelijke methode
Bij een klassiek experiment de statisticus en wetenschapper formuleren eerst samen een hypothese. Vervolgens voeren wetenschappers experimenten uit om gegevens te verzamelen, die vervolgens door statistici worden geanalyseerd.
Een beroemd voorbeeld van dit proces is het verhaal van de "lady tasting tea". Terug in de jaren 1920, op een feest van academici, een vrouw beweerde het verschil in smaak te kunnen zien als de thee of melk eerst in een kopje werd toegevoegd. Statisticus Ronald Fisher betwijfelde of ze zo'n talent had. Hij veronderstelde dat, van de acht kopjes thee, zodanig bereid dat aan vier kopjes eerst melk werd toegevoegd en aan de andere vier kopjes eerst thee, het aantal juiste gissingen zou een waarschijnlijkheidsmodel volgen dat de hypergeometrische verdeling wordt genoemd.
Zo'n experiment werd gedaan met acht kopjes thee die in willekeurige volgorde naar de dame werden gestuurd - en, volgens de legende, ze categoriseerde alle acht correct. Dit was sterk bewijs tegen de hypothese van Fisher. De kans dat de dame alle juiste antwoorden had gekregen door willekeurig te raden was een extreem lage 1,4 procent.
Dat proces - veronderstel, dan gegevens verzamelen, vervolgens analyseren - is zeldzaam in het big data-tijdperk. De technologie van vandaag kan enorme hoeveelheden gegevens verzamelen, in de orde van 2,5 exabyte per dag.
Hoewel dit een goede zaak is, wetenschap ontwikkelt zich vaak veel langzamer, en dus weten onderzoekers misschien niet hoe ze de juiste hypothese moeten dicteren bij de analyse van gegevens. Bijvoorbeeld, wetenschappers kunnen nu tienduizenden genexpressies van mensen verzamelen, maar het is erg moeilijk om te beslissen of men een bepaald gen in de hypothese moet opnemen of uitsluiten. In dit geval, het is aantrekkelijk om op basis van de data de hypothese te vormen. Hoewel dergelijke hypothesen overtuigend kunnen lijken, conventionele gevolgtrekkingen uit deze hypothesen zijn over het algemeen ongeldig. Dit is zo omdat, in tegenstelling tot het "lady tasting tea"-proces, de volgorde van het bouwen van de hypothese en het zien van de gegevens is omgekeerd.
Gegevensproblemen
Waarom kan deze terugkeer een groot probleem veroorzaken? Laten we eens kijken naar een big data-versie van de theedame - een voorbeeld van '100 dames die thee proeven'.
Stel dat er 100 dames zijn die het verschil tussen de thee niet kunnen zien, maar raad eens na het proeven van alle acht kopjes. Er is zelfs 75,6 procent kans dat tenminste één dame alle bestellingen goed raadt.
Nutsvoorzieningen, als een wetenschapper een dame zag met een verrassende uitkomst van alle correcte kopjes en een statistische analyse voor haar uitvoerde met dezelfde hypergeometrische verdeling hierboven, dan zou hij kunnen concluderen dat deze dame het verschil tussen elke kop kon zien. Maar dit resultaat is niet reproduceerbaar. Als dezelfde dame het experiment opnieuw zou doen, zou ze de kopjes hoogstwaarschijnlijk verkeerd sorteren - niet zo veel geluk als haar eerste keer - omdat ze het verschil tussen de kopjes niet echt kon zien.
Dit kleine voorbeeld illustreert hoe wetenschappers "gelukkig" interessante maar onechte signalen uit een dataset kunnen zien. Ze kunnen hypothesen formuleren na deze signalen, gebruik vervolgens dezelfde dataset om de conclusies te trekken, beweren dat deze signalen echt zijn. Het kan even duren voordat ze ontdekken dat hun conclusies niet reproduceerbaar zijn. Dit probleem komt vooral veel voor bij big data-analyse vanwege de grote hoeveelheid gegevens, bij toeval kunnen enkele onechte signalen "gelukkig" optreden.
Wat is erger, dit proces kan wetenschappers in staat stellen de gegevens te manipuleren om het meest publiceerbare resultaat te produceren. Statistici maken grapjes over zo'n praktijk:"Als we data hard genoeg martelen, ze zullen je iets vertellen." is dit "iets" geldig en reproduceerbaar? Waarschijnlijk niet.
Sterkere analyses
Hoe kunnen wetenschappers het bovenstaande probleem vermijden en reproduceerbare resultaten behalen in big data-analyse? Het antwoord is simpel:wees voorzichtiger.
Als wetenschappers reproduceerbare resultaten willen van datagestuurde hypothesen, dan moeten ze in de analyse zorgvuldig rekening houden met het datagedreven proces. Statistici moeten nieuwe procedures ontwerpen die geldige conclusies opleveren. Er lopen er al een paar.
Statistiek gaat over de optimale manier om informatie uit data te halen. Door deze aard, het is een veld dat evolueert met de evolutie van gegevens. De problemen van het big data-tijdperk zijn slechts één voorbeeld van een dergelijke evolutie. Ik denk dat wetenschappers deze veranderingen moeten omarmen, aangezien zij zullen leiden tot de ontwikkeling van nieuwe statistische technieken, die op hun beurt geldige en interessante wetenschappelijke ontdekkingen zullen opleveren.
Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.
Wetenschap © https://nl.scienceaq.com