science >> Wetenschap >  >> anders

Sorry, verkeerd nummer:statistische benchmark komt onder vuur te liggen

Op deze 1 juli 1960 bestandsfoto, een chemicus werkt in een laboratorium in Cambridge, Massa. Decennia lang wetenschappers hebben "statistische significantie" gebruikt om te schatten of hun resultaten betrouwbaar zijn of slechts toevalstreffers. Het is al lang bekritiseerd, maar 2019 heeft twee spraakmakende oproepen gebracht om er helemaal vanaf te komen. (AP Foto/Peter J. Carroll)

Eerder dit najaar presenteerde Dr. Scott Solomon de resultaten van een groot onderzoek naar hartmedicijnen aan een publiek van collega-cardiologen in Parijs.

De resultaten die Solomon beschreef zagen er veelbelovend uit:patiënten die de medicatie namen, hadden een lager aantal ziekenhuisopnames en overlijden dan patiënten die een ander medicijn gebruikten.

Toen liet hij zijn publiek een ander nummer zien.

"Er waren wat haperingen, of 'Oeh, '" Salomo, van het Brigham and Women's Hospital in Harvard, onlangs herinnerd. "Veel mensen waren teleurgesteld."

Een investeringsanalist reageerde door zijn prognose voor de piekverkoop van het medicijn met $ 1 miljard te verlagen.

Wat is er gebeurd?

Het aantal dat de ademnood veroorzaakte was 0,059. Het publiek was op zoek naar iets onder de 0,05.

Het betekende dat de veelbelovende resultaten van Solomon in strijd waren met een statistisch concept waar je misschien nog nooit van hebt gehoord:statistische significantie. Het is een alles of niets ding. Uw statistische resultaten zijn ofwel significant, wat betekent dat ze betrouwbaar zijn, of niet significant, wat wijst op een onaanvaardbaar grote kans dat ze gewoon een toevalstreffer waren.

Het concept wordt al tientallen jaren gebruikt. Het heeft veel invloed op hoe wetenschappelijke resultaten worden beoordeeld, welke studies worden gepubliceerd, en welke medicijnen de drogisterij halen.

Maar dit jaar bracht twee spraakmakende telefoontjes van critici, inclusief vanuit de mysterieuze wereld van statistieken, om er vanaf te komen - deels uit bezorgdheid dat het resultaten voortijdig verwerpt zoals die van Solomon.

Significantie wordt weerspiegeld in een berekening die iets oplevert dat een p-waarde wordt genoemd. Gebruikelijk, als dit een p-waarde van minder dan 0,05 oplevert, de onderzoeksresultaten worden als significant beschouwd. Als niet, de studie is gezakt voor de test.

Solomon's studie miste net. Dus de schijnbare voorsprong die zijn medicijn vertoonde op de andere medicatie, werd als onbeduidend beschouwd. Volgens dit criterium was er geen "echt" verschil.

Solomon gelooft dat het medicijn in feite een echt voordeel opleverde en dat een groter of langduriger onderzoek statistische significantie had kunnen bereiken.

"Ik huil niet om gemorste melk, "zei hij. "We bepalen de regels. De vraag is, is dat de juiste manier om het aan te pakken?"

Hij is niet de enige die die vraag stelt.

"Het is een veilige gok dat mensen hebben geleden of zijn gestorven omdat wetenschappers (en redacteuren, regelgevers, journalisten en anderen) significantietests hebben gebruikt om resultaten te interpreteren, " epidemioloog Kenneth Rothman van RTI Health Solutions in Research Triangle Park, NC, en Boston University schreef in 2016.

Het gevaar is zowel dat een potentieel gunstige medische bevinding kan worden genegeerd omdat een onderzoek geen statistische significantie bereikt, en een schadelijke of vruchteloze medische praktijk zou kunnen worden geaccepteerd, simpelweg omdat ze dat doet, zei hij in een e-mail.

De p-waarde-grenswaarde voor significantie is "een maatregel die de status van poortwachter heeft gekregen ... niet alleen voor publicatie, maar ook voor mensen om uw resultaten serieus te nemen, ", zegt Blake McShane, statisticus van de Northwestern University.

Het is geen wonder dat een statisticus, tijdens een recent gesprek met journalisten over de kwestie net voor Halloween, toonde een dia van een jack-o'-lantern gesneden met deze aanblik, duidelijk angstaanjagend voor iedereen in de wetenschap of geneeskunde:"P =.06."

McShane en anderen stellen dat het belang van de p-waardedrempel onterecht is. Hij was co-auteur van een oproep om het begrip statistische significantie af te schaffen, die dit jaar werd gepubliceerd in het prestigieuze tijdschrift Nature. Het voorstel trok meer dan 800 medeondertekenaars.

Zelfs de American Statistical Association, die nooit een formele verklaring had afgegeven over specifieke statistische praktijken, kwam in 2016 hard neer op het op deze manier gebruiken van elke vorm van p-waarde cutoff. En dit jaar ging het verder, verklaren in een speciale uitgave met 43 papers over het onderwerp, "Het is tijd om helemaal te stoppen met het gebruik van de term 'statistisch significant'."

Wat is het probleem? McShane en anderen noemen er een aantal:

— P-waarde meet niet direct de waarschijnlijkheid dat de uitkomst van een experiment slechts een toevalstreffer is. Wat het werkelijk vertegenwoordigt, wordt algemeen verkeerd begrepen, zelfs door wetenschappers en sommige statistici, zei Nicole Lazar, een statistiekprofessor aan de Universiteit van Georgia.

— Het gebruik van een label van statistische significantie "geeft meer zekerheid die daadwerkelijk gerechtvaardigd is, " Zei Lazar. "We moeten erkennen dat er onzekerheid is in onze bevindingen."

— De traditionele grens van 0,05 is willekeurig.

— Statistische significantie betekent niet noodzakelijkerwijs "significant" - of dat een bevinding praktisch of wetenschappelijk belangrijk is, zegt Lazar. Het is misschien niet eens waar:Solomon citeert een groot onderzoek naar hartmedicijnen die een significant behandelingseffect aantoonde voor patiënten die in augustus maar niet in juli werden geboren, uiteraard slechts een willekeurige fluctuatie.

— De term "statistische significantie" vormt een doellijn voor onderzoekers, een duidelijke maatstaf voor succes of falen. Dat betekent dat onderzoekers een beetje te hard kunnen proberen om het te bereiken. Ze kunnen het systeem opzettelijk bespelen om een ​​acceptabele p-waarde te krijgen, of kies onbewust voor analytische methoden die helpen, McShane en Lazar zeiden.

— Dat kan niet alleen de effecten van individuele experimenten vervormen, maar ook de cumulatieve resultaten van studies over een bepaald onderwerp, zodat over het algemeen een medicijn er "veel beter uit kan zien dan het in werkelijkheid is, ' zei Mc Shane.

Wat moet er in plaats daarvan gebeuren? Schaf de heldere lijn van statistische significantie af, en rapporteer gewoon de p-waarde samen met andere analyses om een ​​meer uitgebreid overzicht te geven van wat het testresultaat kan betekenen, McShane en anderen zeggen.

Het is misschien niet zo duidelijk als een simpele verklaring van significantie of onbeduidendheid, maar "we zullen een beter idee hebben van wat er aan de hand is, "zei Lazar. "Ik denk dat het gemakkelijker zal zijn om het slechte werk uit te roeien."

Niet iedereen gelooft het idee om statistische significantie af te schaffen. De prominente Stanford-onderzoeker Dr. John Ioannidis zegt dat afschaffing "bias zou kunnen bevorderen. Onweerlegbare onzin zou heersen." Hoewel hij het ermee eens is dat een p-waardestandaard van minder dan 0,05 zwak is en gemakkelijk misbruikt, hij is van mening dat wetenschappers in plaats daarvan een strengere p-waarde of een andere statistische maatstaf moeten gebruiken, gespecificeerd voordat het experiment wordt uitgevoerd.

McShane zei dat hoewel er al jaren wordt gepleit voor het afschaffen van statistische significantie, er lijkt de laatste tijd meer vaart te komen.

"Kan zijn, " hij zei, "Het is tijd om de spijker voorgoed aan de doodskist te slaan."

© 2019 The Associated Press. Alle rechten voorbehouden.