Wetenschap
Tegoed:Unsplash/CC0 Publiek domein
Hoe zeker moet je zijn in verkiezingspeilingen? Lang niet zo zelfverzekerd als de opiniepeilers beweren, volgens een nieuwe studie van Berkeley Haas.
De meeste verkiezingspeilingen melden een betrouwbaarheidsniveau van 95%. Toch een analyse van 1, Uit 400 peilingen uit 11 verkiezingscycli bleek dat de uitkomst slechts 60% van de tijd binnen het resultaat van de peiling valt. En dat is voor peilingen slechts een week voor een verkiezing - de nauwkeurigheid zakt nog verder weg.
"Als je zeker bent, op basis van peilingen, over hoe de verkiezingen van 2020 eruit zullen zien, denk nog eens na, " zei Berkeley Haas Prof. Don Moore, die de analyse uitvoerde met oud-student Aditya Kotak, BA 20. "Er zijn veel redenen waarom de werkelijke uitkomst anders zou kunnen zijn dan de peiling, en de manier waarop opiniepeilers betrouwbaarheidsintervallen berekenen, houdt geen rekening met die problemen."
Veel mensen waren verrast toen president Donald Trump in 2016 Hillary Clinton versloeg nadat hij haar in de peilingen had gevolgd. en speculeerde dat peilingen minder nauwkeurig worden of dat de verkiezingen zo ongewoon waren dat ze van de baan waren. Maar Moore en Kotak vonden geen bewijs van afnemende nauwkeurigheid in hun steekproef van peilingen tot 2008 - eerder, ze vonden consequent overmoedige beweringen van opiniepeilers.
"Misschien moet de manier waarop we peilingen als geheel interpreteren, worden aangepast, om rekening te houden met de onzekerheid die ermee gepaard gaat, " zei Kotak. In feite, 95% zeker zijn, peilingen zouden de foutenmarges die ze rapporteren zelfs een week na de verkiezingsdag moeten verdubbelen, de analyse afgerond.
Als student statistiek en computerwetenschappen op een undergraduate onderzoeksstage in Moore's Accuracy Lab tijdens de presidentiële voorverkiezingen van 2019, Kotak werd nieuwsgierig naar de betrouwbaarheidsintervallen die bij peilingen waren opgenomen. Hij merkte op dat de foutenmarge van peilingen vaak werd genoemd als voetnoot in nieuwsartikelen en verkiezingsprognosemethodologieën, en hij vroeg zich af of ze wel zo nauwkeurig waren als hun foutenmarges suggereerden.
Kotak bracht het idee naar Moore, die overmoed bestudeert vanuit zowel psychologisch als statistisch perspectief. Veel van het onderzoek naar de nauwkeurigheid van peilingen houdt alleen rekening met de vraag of de peiling de winnaar correct heeft genoemd. Om het vertrouwen in de peiling te meten, ze besloten om met terugwerkende kracht naar peilingen te kijken op basis van hoe lang voor een verkiezing ze werden gehouden, en niet overwegen of een kandidaat heeft gewonnen of verloren, maar of het werkelijke aandeel van de stemmen binnen de foutenmarge viel die de peiling had gerapporteerd. Bijvoorbeeld, als uit een peiling blijkt dat 54% van de kiezers de voorkeur geeft aan een kandidaat, en het had een foutenmarge van 5%, het zou juist zijn als de kandidaat 49% tot 59% van de stemmen zou halen, maar zou een misser zijn als de kandidaat won met meer dan 59% van de stemmen (of minder dan 49%).
Moore en Kotak behaalden 1, 400 peilingen voorafgaand aan de algemene verkiezingen van 2008 2012, en 2016, evenals de Democratische presidentsverkiezingen in Iowa en New Hampshire van 2008 en 2016 en de Republikeinse voorverkiezingen in dezelfde staten van 2012 en 2016. Omdat in sommige peilingen naar meerdere kandidaten werd gevraagd, de steekproef omvatte resultaten van meer dan 5, 000 enquêtes over hoe mensen zeiden dat ze op bepaalde kandidaten zouden stemmen, evenals de bijbehorende foutenmarges.
De peilingen analyseren in batches van zeven dagen, ze vonden een gestage afname van de nauwkeurigheid naarmate de peiling verder van een verkiezing verwijderd was, met slechts ongeveer de helft blijkt accuraat te zijn 10 weken voor een verkiezing. Dit slaat ergens op, omdat er onvoorziene gebeurtenissen plaatsvinden, zoals de voormalige FBI-directeur James Comey die een week voor de presidentsverkiezingen van 2016 een onderzoek aankondigde naar de e-mails van Clinton. Maar de meeste peilingen, zelfs weken uit, rapporteerde het industriestandaard 95% betrouwbaarheidsinterval.
Steekproeffout en betrouwbaarheidsintervallen
Het betrouwbaarheidsinterval kwantificeert hoe zeker men kan zijn dat de steekproef van ondervraagden de hele kiezerspopulatie weerspiegelt. Een 95% betrouwbaarheidsinterval, bijvoorbeeld, betekent dat als dezelfde bemonsteringsprocedure 100 keer zou worden gevolgd, 95 van die steekproeven zouden de echte kiezerspopulatie bevatten. Daarin ligt het probleem, echter.
Het betrouwbaarheidsniveau houdt rekening met "steekproeffout, " een statistische term die kwantificeert hoe waarschijnlijk het is dat door puur toeval, de steekproef verschilt van de grotere populatie kiezers waaruit de steekproef is getrokken. Bijvoorbeeld, het niet onderzoeken van een voldoende grote groep kiezers zou de steekproeffout vergroten. Maar steekproeffouten omvatten geen andere soorten fouten, zoals het onderzoeken van de verkeerde groep mensen om mee te beginnen.
"Mensen vergeten vaak dat foutenmarges voor peilingen alleen de statistische bronnen van fouten bevatten, " zei David Broockman, een universitair hoofddocent in Berkeley's Department of Political Science. "Deze analyse laat zien hoe groot de resterende niet-statistische foutenbronnen in de praktijk zijn."
Prof. Gabriel Lenz toegevoegd, ook van Berkeley Politicologie, "Dit is een fascinerende analyse, en toekomstig werk zou de oorzaken van de onnauwkeurigheid kunnen achterhalen, zoals opiniepeilers van lage kwaliteit, moeite met het screenen van waarschijnlijke kiezers, last-minute veranderingen in de kiezersintenties, en meer."
Het is gemakkelijk om steekproeffouten in peilingstatistieken mee te nemen, maar veel moeilijker om alle andere onbekenden te verklaren, zei Moor. Het is een les die veel verder gaat dan peilingen.
"Omdat we onze overtuigingen baseren op onvolmaakte en bevooroordeelde voorbeelden van informatie, soms zullen we het bij het verkeerde eind hebben om redenen die we niet hadden voorzien, " hij zei.
Er zijn verrassend veel overeenkomsten geweest. De eerste zwavel-gebaseerde wedstrijden verschenen in de jaren 1200, en een manier om ze te raken met behulp van fosfor gedrenkte papier werd bedacht in de jaren 1600. Mod
Wetenschap © https://nl.scienceaq.com