science >> Wetenschap >  >> anders

Rest in statistieken

Wanneer u modellen in statistieken bouwt, test u ze meestal, waarbij u ervoor zorgt dat de modellen overeenkomen met situaties uit de praktijk. De rest is een getal dat u helpt te bepalen hoe dicht uw theoretische model bij het fenomeen in de echte wereld ligt. Residuen zijn niet al te moeilijk te begrijpen: het zijn slechts getallen die aangeven hoe ver een gegevenspunt volgens het voorspelde model verwijderd is van wat het zou moeten zijn.
Wiskundige definitie

Wiskundig is een rest het verschil tussen een waargenomen gegevenspunt en de verwachte - of geschatte - waarde voor wat dat gegevenspunt had moeten zijn. De formule voor een rest is R \u003d O - E, waarbij "O" de waargenomen waarde betekent en "E" de verwachte waarde betekent. Dit betekent dat positieve waarden van R waarden weergeven die hoger zijn dan verwacht, terwijl negatieve waarden waarden weergeven die lager zijn dan verwacht. U kunt bijvoorbeeld een statistisch model hebben dat zegt dat wanneer het gewicht van een man 140 pond is, zijn lengte 6 voet of 72 inch moet zijn. Wanneer u eropuit gaat om gegevens te verzamelen, vindt u misschien iemand die 140 pond weegt, maar 5 voet 9 inch of 69 inch is. Het restant is dan 69 inch minus 72 inch, waardoor u een waarde van negatieve 3 inch krijgt. Met andere woorden, het geobserveerde gegevenspunt ligt 3 inch onder de verwachte waarde.
Modellen controleren

Residuen zijn vooral handig als u wilt controleren of uw theoretische model in de echte wereld werkt. Wanneer u een model maakt en de verwachte waarden ervan berekent, theoretiseert u. Maar wanneer u gegevens gaat verzamelen, kan het zijn dat de gegevens niet overeenkomen met het model. Een manier om deze mismatch tussen uw model en de echte wereld te vinden, is door residuen te berekenen. Als u bijvoorbeeld vindt dat uw residuen allemaal consistent ver weg zijn van uw geschatte waarden, heeft uw model mogelijk geen sterke onderliggende theorie. Een eenvoudige manier om residuen op deze manier te gebruiken, is door ze te plotten.
Residuen plotten

Wanneer u de residuen berekent, hebt u een handvol getallen, die voor mensen moeilijk te interpreteren zijn. Het plotten van de residuen kan u vaak patronen laten zien. Deze patronen kunnen ertoe leiden dat u bepaalt of het model goed past. Twee aspecten van residuen kunnen u helpen bij het analyseren van een plot van residuen. Ten eerste moeten residuen voor een goed model aan beide kanten van nul worden verspreid. Dat wil zeggen dat een plot van residuen ongeveer evenveel negatieve residuen moet hebben als positieve residuen. Ten tweede moeten residuen willekeurig lijken. Als u een patroon in uw restplot ziet, zoals een duidelijk lineair of gebogen patroon, kan uw oorspronkelijke model een fout bevatten.
Speciale residuen: uitschieters

uitschieters, of resten met extreem grote waarden , verschijnen ongebruikelijk ver weg van de andere punten op uw plot van residuen. Wanneer u een residu vindt dat een uitbijter is in uw gegevensset, moet u er goed over nadenken. Sommige wetenschappers bevelen aan om uitbijters te verwijderen omdat dit "afwijkingen" of speciale gevallen zijn. Anderen raden verder onderzoek aan waarom je zo'n grote restwaarde hebt. Je maakt bijvoorbeeld een model van hoe stress de schoolcijfers beïnvloedt en veronderstelt dat meer stress meestal slechtere cijfers betekent. Als uit uw gegevens blijkt dat dit waar is, behalve voor één persoon, die zeer weinig stress en zeer lage cijfers heeft, vraagt u zich misschien af waarom. Zo iemand kan gewoon niets interesseren, inclusief school, die het grote restant verklaart. In dit geval kunt u overwegen het restant uit uw gegevensset te verwijderen, omdat u alleen studenten wilt modelleren die om school geven.