science >> Wetenschap >  >> Wiskunde

Chi-Square Test

Testvoorspellingen van experimenten. Deze voorspellingen zijn vaak numeriek, wat betekent dat, als wetenschappers gegevens verzamelen, ze verwachten dat de getallen op een bepaalde manier zullen afbreken. Reële-wereldgegevens komen zelden overeen met de voorspellingen die wetenschappers maken, dus wetenschappers hebben een test nodig om hen te vertellen of het verschil tussen waargenomen en verwachte aantallen het gevolg is van willekeurige toeval, of vanwege een onvoorziene factor die de wetenschapper zal dwingen de onderliggende theorie aan te passen . Een chikwadraattest is een statistische tool die wetenschappers voor dit doel gebruiken.

Het vereiste type gegevens

U hebt categorische gegevens nodig om een ​​chi-kwadraattest te gebruiken. Een voorbeeld van categorische gegevens is het aantal mensen dat een vraag 'ja' heeft beantwoord versus het aantal mensen dat de vraag 'nee' (twee categorieën) heeft beantwoord, of het aantal kikkers in een populatie dat groen, geel of grijs is ( drie categorieën). U kunt geen chikwadraattest gebruiken voor continue gegevens, zoals die kunnen worden verzameld uit een enquête waarin mensen worden gevraagd hoe groot ze zijn. Van zo'n enquête krijg je een breed bereik van hoogtes. Als u de hoogten echter opdeelt in categorieën zoals 'onder de maat van 6 voet lang' en '6 voet lang en groter', kunt u een chikwadraattest op de gegevens gebruiken.

De goedheid van Fit Test

Een good-of-fit test is een veel voorkomende, en misschien wel de eenvoudigste, test uitgevoerd met behulp van de chikwadraatstatistiek. In een good-of-fit-test maakt de wetenschapper een specifieke voorspelling over de cijfers die ze verwacht te zien in elke categorie van haar gegevens. Vervolgens verzamelt ze gegevens uit de echte wereld - de zogenaamde geobserveerde gegevens - en gebruikt ze de chikwadraattoets om te zien of de geobserveerde gegevens aan haar verwachtingen voldoen.
Stel bijvoorbeeld dat een bioloog de overervingspatronen in een soorten kikker. Bij 100 nakomelingen van een stel kikkerouders, leidt het genetische model van de bioloog haar ertoe om 25 gele nakomelingen, 50 groene nakomelingen en 25 grijze nakomelingen te verwachten. Wat ze waarneemt, is 20 gele nakomelingen, 52 groene nakomelingen en 28 grijze nakomelingen. Wordt haar voorspelling ondersteund of is haar genetische model onjuist? Ze kan een chikwadraattoets gebruiken om erachter te komen.

Berekenen van de Chi-vierkant-statistiek

Begin met het berekenen van de chikwadraatstatistiek door elke verwachte waarde af te trekken van de bijbehorende geobserveerde waarde en elk vierkant te kwadrateren resultaat. De berekening voor het voorbeeld van de kikkerkern ziet er als volgt uit:

geel = (20 - 25) ^ 2 = 25 groen = (52 - 50) ^ 2 = 4 grijs = (28 - 25) ^ 2 = 9

Verdeel nu elk resultaat door de bijbehorende verwachte waarde.

geel = 25 ÷ 25 = 1 groen = 4 ÷ 50 = 0,08 grijs = 9 ÷ 25 = 0,36

Voeg ten slotte de antwoorden uit de vorige stap toe.

chi-square = 1 + 0.08 + 0.36 = 1.44

De Chi-Square-statistiek interpreteren

De chi -square-statistiek vertelt u hoe verschillend uw waargenomen waarden waren van uw voorspelde waarden. Hoe hoger het getal, hoe groter het verschil. U kunt bepalen of uw chikwadraatwaarde te hoog of laag genoeg is om uw voorspelling te ondersteunen door te kijken of deze lager is dan een bepaalde kritische waarde op een chikwadraat-distributietabel. Deze tabel komt overeen met chikwadraatwaarden met kansen, p-waarden genoemd. In het bijzonder vertelt de tabel u de waarschijnlijkheid dat de verschillen tussen uw waargenomen en verwachte waarden eenvoudigweg te wijten zijn aan willekeurig toeval of dat er een andere factor aanwezig is. Voor een 'goodness-of-fit'-test, als de p-waarde 0,05 of minder is, moet je je voorspelling weigeren.

Je moet de vrijheidsgraden (df) in je gegevens bepalen voordat je kunt opzoeken de kritische chikwadraatwaarde in een distributietabel. Vrijheidsgraden worden berekend door 1 af te trekken van het aantal categorieën in uw gegevens. Er zijn drie categorieën in dit voorbeeld, dus er zijn 2 vrijheidsgraden. Een blik op deze chikwadraat-verdeeltabel vertelt je dat voor 2 vrijheidsgraden de kritieke waarde voor een 0.05-waarschijnlijkheid 5.99 is. Dit betekent dat zolang je berekende chikwadraatwaarde kleiner is dan 5,99, je verwachte waarden, en dus de onderliggende theorie, geldig en ondersteund zijn. Omdat de chikwadraatstatistiek voor de kikkerafstammingsgegevens 1,44 was, kan de bioloog haar genetische model accepteren.