Wetenschap
Een korte handleiding voor p-waarden. Krediet:Remapetilto/Wikimedia, CC BY-SA
De wetenschappelijke wereld bruist van de aanbevelingen van twee van de meest prestigieuze wetenschappelijke tijdschriften - De Amerikaanse statisticus en Natuur – de term "statistische significantie" te schrappen.
In hun inleiding tot het speciale nummer van The American Statistician over dit onderwerp, de redactie van het tijdschrift dringen aan op "verhuizen naar een wereld voorbij 'p <0,05, '" de beroemde drempel van 5 procent om te bepalen of het resultaat van een onderzoek statistisch significant is. Als een onderzoek deze test doorstaat, het betekent dat de kans dat een resultaat alleen op toeval berust, kleiner is dan 5 procent. Vaak wordt hiermee bedoeld dat het onderzoek de moeite waard is om aandacht aan te besteden.
De basisboodschap van het tijdschrift – maar niet noodzakelijk de consensus van de 43 artikelen in dit nummer, een daarvan heb ik bijgedragen – was dat wetenschappers in de eerste plaats "onzekerheid moeten omarmen" en "oplettend moeten zijn, open en bescheiden."
Hoewel dit goede eigenschappen zijn, Ik ben van mening dat wetenschappers hen niet de precisie en nauwkeurigheid moeten laten verdoezelen die de wetenschap vereist. Onzekerheid is inherent aan data. Als wetenschappers de toch al zeer zwakke drempel van 0,05 verder verzwakken, dan zou dat onvermijdelijk wetenschappelijke bevindingen moeilijker te interpreteren en minder betrouwbaar maken.
Moeilijkheidsgraad op moeilijkheidsgraad stapelen
In de traditionele praktijk van de wetenschap, een wetenschapper genereert een hypothese en ontwerpt experimenten om gegevens te verzamelen ter ondersteuning van hypothesen. Hij of zij verzamelt vervolgens gegevens en voert statistische analyses uit om te bepalen of de gegevens de hypothese inderdaad ondersteunen.
Een standaard statistische analyse is de p-waarde. Dit genereert een getal tussen 0 en 1 dat sterke, marginale of zwakke ondersteuning van een hypothese.
Maar ik maak me zorgen dat het verlaten van op bewijs gebaseerde normen voor deze beoordelingen het nog moeilijker zal maken om experimenten te ontwerpen, veel minder beoordelen hun resultaten. Bijvoorbeeld, hoe zou men zelfs een geschikte steekproefomvang kunnen bepalen zonder een gericht precisieniveau? En hoe moeten onderzoeksresultaten worden geïnterpreteerd?
Dit zijn belangrijke vragen, niet alleen voor onderzoekers bij financierings- of regelgevende instanties, maar voor iedereen wiens dagelijks leven wordt beïnvloed door statistische oordelen. Dat omvat iedereen die medicijnen gebruikt of een operatie ondergaat, rijdt of rijdt in voertuigen, wordt belegd op de aandelenmarkt, heeft een levensverzekering of is afhankelijk van nauwkeurige weersvoorspellingen ... en de lijst gaat maar door. evenzo, veel regelgevende instanties vertrouwen elke dag op statistieken om beslissingen te nemen.
Wetenschappers moeten de taal hebben om aan te geven dat een onderzoek, of groep studies, significant bewijs geleverd ten gunste van een verband of een effect. Statistische betekenis is de term die dit doel dient.
De groepen achter deze beweging
Vijandigheid tegen de term "statistische significantie" komt voort uit twee groepen.
De eerste bestaat grotendeels uit wetenschappers die teleurgesteld zijn wanneer hun studies p=0,06 opleveren. Met andere woorden, degenen wiens studies het gewoon niet halen. Dit zijn grotendeels wetenschappers die de 0,05-norm een te hoge drempel vinden om gepubliceerd te worden in de wetenschappelijke tijdschriften die een belangrijke bron van academische kennis zijn - evenals ambtstermijn en promotie.
De tweede groep maakt zich zorgen over het niet repliceren van wetenschappelijke studies, en ze geven de significantietest gedeeltelijk de schuld van deze mislukking.
Bijvoorbeeld, een groep wetenschappers herhaalde onlangs 100 gepubliceerde psychologische experimenten. Zevenennegentig van de 100 oorspronkelijke onderzoeken rapporteerden een statistisch significante bevinding (p <0,05), maar slechts 36 van de herhaalde experimenten waren in staat om ook een significant resultaat te bereiken.
Het falen van zoveel studies om te repliceren kan gedeeltelijk worden toegeschreven aan publicatiebias, die ontstaat wanneer alleen significante bevindingen worden gepubliceerd. Publicatiebias zorgt ervoor dat wetenschappers de omvang van een effect overschatten, zoals de relatie tussen twee variabelen, waardoor replicatie minder waarschijnlijk wordt.
Wat de situatie nog ingewikkelder maakt, is het feit dat recent onderzoek aantoont dat de p-waarde cutoff niet veel bewijs levert dat er een echte relatie is gevonden. In feite, in replicatiestudies in de sociale wetenschappen, het blijkt nu dat p-waarden dicht bij de standaarddrempel van 0,05 waarschijnlijk betekenen dat een wetenschappelijke claim onjuist is. Pas als de p-waarde veel kleiner is, misschien minder dan 0,005, dat wetenschappelijke beweringen waarschijnlijk een echt verband aantonen.
De verwarring die tot deze beweging leidde
Veel niet-statistici verwarren p-waarde met de kans dat er geen ontdekking is gedaan.
Laten we eens kijken naar een voorbeeld uit het Nature-artikel. Twee studies onderzochten het verhoogde risico op ziekte na inname van een medicijn. Beide onderzoeken schatten dat patiënten een 20 procent hoger risico hadden om de ziekte te krijgen als ze het medicijn innamen dan als ze dat niet deden. Met andere woorden, beide studies schatten het relatieve risico op 1,20.
Echter, het geschatte relatieve risico van de ene studie was nauwkeuriger dan de andere, omdat de schatting was gebaseerd op de resultaten van veel meer patiënten. Dus, de schatting van één onderzoek was statistisch significant, en de schatting van de ander niet.
De auteurs noemen deze inconsistentie - dat de ene studie een significant resultaat behaalde en de andere niet - als bewijs dat statistische significantie leidt tot verkeerde interpretatie van wetenschappelijke resultaten.
Echter, Ik ben van mening dat een redelijke samenvatting eenvoudigweg is dat één studie statistisch significant bewijs verzamelde en één niet, maar de schattingen van beide onderzoeken suggereerden dat het relatieve risico bijna 1,2 was.
Waar te gaan vanaf hier?
Ik ben het eens met het Nature-artikel en het hoofdartikel van The American Statistician dat gegevens die zijn verzameld uit alle goed ontworpen wetenschappelijke onderzoeken openbaar moeten worden gemaakt, met uitgebreide samenvattingen van statistische analyses. Samen met de p-waarden van elke studie, het is belangrijk om schattingen van effectgroottes en betrouwbaarheidsintervallen voor deze schattingen te publiceren, evenals volledige beschrijvingen van alle gegevensanalyses en gegevensverwerking.
Anderzijds, alleen studies die sterk bewijs leveren voor belangrijke associaties of nieuwe effecten mogen in vooraanstaande tijdschriften worden gepubliceerd. Voor deze tijdschriften bewijsnormen moeten worden verhoogd door kleinere p-waarden te eisen voor het eerste rapport van relaties en nieuwe ontdekkingen. Met andere woorden, wetenschappers resultaten laten publiceren waar ze nog zekerder van zijn.
Het komt erop neer dat het ontmantelen van geaccepteerde standaarden voor statistisch bewijs de onzekerheid die wetenschappers hebben bij het publiceren van hun eigen onderzoek zal verminderen. Maar het zal ook de onzekerheid van het publiek vergroten bij het accepteren van de bevindingen die ze publiceren - en dat kan problematisch zijn.
Dit artikel is opnieuw gepubliceerd vanuit The Conversation onder een Creative Commons-licentie. Lees het originele artikel.
Wetenschap © https://nl.scienceaq.com