science >> Wetenschap >  >> anders

Geleerden richten zich op valse positieven in onderzoek

Krediet:Petr Kratochvil/Public Domain

Een enkele wijziging van een eeuwenoude statistische standaard zou de kwaliteit van onderzoek op veel wetenschappelijke gebieden drastisch verbeteren, vermindering van het aantal zogenaamde valse positieven, volgens een commentaar gepubliceerd op 1 september in Natuur Menselijk gedrag .

Het betoog, co-auteur van de econoom John List van de Universiteit van Chicago, vertegenwoordigt de consensus van 72 wetenschappers van instellingen over de hele wereld en disciplines variërend van neurobiologie tot filosofie. Hun aanbevelingen zouden een groot effect kunnen hebben op de publicatie van wetenschappelijk werk en op de openbare orde.

"We adverteren interventies als werkend omdat we statistisch denken dat ze werken. Maar ze werken eigenlijk niet. Dit wordt een crisis in de wetenschap, " zei Lijst, de Kenneth C. Griffin Distinguished Service Professor in de economie.

List en zijn co-auteurs suggereren dat wetenschappers een statistische benchmark, bekend als de p-waarde, opnieuw moeten instellen, omdat de bewijsnormen voor het claimen van nieuwe ontdekkingen op veel gebieden gewoon te laag zijn. De aanpak is schadelijk voor de geloofwaardigheid van wetenschappelijke claims, ze zeiden.

Begin jaren twintig werd een p-waardestandaard aangenomen, toen de Britse statisticus Ronald Fisher een waarde van minder dan 0,05 voorstelde als drempel om de validiteit van onderzoeksresultaten te bepalen. Als de p-waarde onder die drempel komt - wat inhoudt dat de kans dat de conclusies van een onderzoek het gevolg zijn van willekeurige kans kleiner is dan 5 procent - dan wordt het onderzoek over het algemeen als statistisch significant beschouwd.

Maar de p-waardedrempel is een doelwit van kritiek geworden als reactie op een waargenomen replicatiecrisis in wetenschappelijke gemeenschappen. Wetenschappelijke tijdschriften gebruiken vaak statistische significantie - en p-waarden - als een test voor het selecteren van artikelen die moeten worden gepubliceerd. List zei dat de huidige p-waardedrempel van 0,05 het mogelijk maakt om veel studies te publiceren en economische en politieke beslissingen te beïnvloeden, ook al zijn de resultaten misschien niet reproduceerbaar door andere onderzoekers.

"Als Ronald Fisher dat bijna 100 jaar later had geweten, zouden we de 0,05-norm religieus gebruiken om 'geïnformeerde' beleidsbeslissingen te nemen, Ik denk niet dat hij het zou hebben gevorderd, ' zei Lijst.

Meer reproduceerbare onderzoeken

Om er zeker van te zijn dat een eerste ontdekking zal werken in de praktijk, resultaten moeten reproduceerbaar zijn. Eerdere studies hebben aangetoond dat slechts 24 procent van de psychologiestudies met een p-waarde van 0,05 kon worden bevestigd door verdere experimenten, wat suggereert dat drie van de vier onderzoeken vals-positieve resultaten vertoonden. evenzo, slechts 44 procent van de economische artikelen met dezelfde p-waarde was reproduceerbaar.

De auteurs berekenden dat het verlagen van de p-waardedrempel tot 0,005 de replicatiesnelheid in psychologie en economie ruwweg zou verdubbelen, en andere velden zouden vergelijkbare resultaten zien. "Het wijzigen van de p-waardedrempel is eenvoudig, sluit aan bij de training die door veel onderzoekers wordt gegeven en kan snel brede acceptatie bereiken, " zeiden de auteurs.

Lijst is het daarmee eens. "Je wilt een wereld opzetten waarin meer mensen proberen te repliceren, en je wilt dat de samenleving die mensen beloont, "zei hij. "En u wilt ook dat meer resultaten die in het beleid worden opgenomen, echte resultaten zijn, repliceerbaar zijn. Onder de 0,005 zouden er meer zijn."

Om publicatie en replicatie van studies verder aan te moedigen, de auteurs van het artikel stellen voor dat nieuwe bevindingen die momenteel "significant" zouden worden genoemd, maar niet voldoen aan de herziene p-waarde van 0,005, in plaats daarvan "suggestief" zouden moeten worden genoemd.

List en zijn co-auteurs wijzen er voorzichtig op dat een wijziging van de p-waarde niet de enige stap is om wetenschappelijk onderzoek te verbeteren. "We hebben verschillende opvattingen over hoe de reproduceerbaarheid het beste kan worden verbeterd, en velen van ons geloven dat andere manieren om de gegevens samen te vatten... de voorkeur hebben boven p-waarden, " ze zeiden.