science >> Wetenschap >  >> Wiskunde

Hoe uitschieters te berekenen

Een uitbijter is een waarde in een gegevensset die ver verwijderd is van de andere waarden. Uitschieters kunnen worden veroorzaakt door experimentele of meetfouten of door een langstaartige populatie. In de eerste gevallen kan het wenselijk zijn uitschieters te identificeren en uit gegevens te verwijderen voordat een statistische analyse wordt uitgevoerd, omdat ze de resultaten kunnen weggooien zodat ze de steekproefpopulatie niet nauwkeurig weergeven. De eenvoudigste manier om uitbijters te identificeren, is met de kwartielmethode.

Sorteer de gegevens in stijgende volgorde. Neem bijvoorbeeld de dataset {4, 5, 2, 3, 15, 3, 3, 5}. Gesorteerd, de voorbeeldgegevensset is {2, 3, 3, 3, 4, 5, 5, 15}.

Zoek de mediaan. Dit is het nummer waarbij de helft van de gegevenspunten groter zijn en de helft kleiner. Als er een even aantal gegevenspunten is, worden de middelste twee gemiddeld. Voor de voorbeeldgegevensset zijn de middelste punten 3 en 4, dus de mediaan is (3 + 4) /2 = 3,5.

Zoek het bovenste kwartiel, Q2; dit is het gegevenspunt waarop 25 procent van de gegevens groter is. Als de gegevensset gelijk is, gemiddelde de 2 punten rond het kwartiel. Voor de voorbeeldgegevensset is dit (5 + 5) /2 = 5.

Zoek het onderste kwartiel, Q1; dit is het gegevenspunt waarop 25 procent van de gegevens kleiner is. Als de gegevensset gelijk is, gemiddelde de 2 punten rond het kwartiel. Voor de voorbeeldgegevens, (3 + 3) /2 = 3.

Trek het onderste kwartiel van het hogere kwartiel af om het interkwartielbereik IQ te krijgen. Voor de voorbeeldgegevensset, Q2 - Q1 = 5 - 3 = 2.

Vermenigvuldig het interkwartielbereik met 1,5. Voeg dit toe aan het bovenste kwartiel en trek het af van het onderste kwartiel. Elk gegevenspunt buiten deze waarden is een milde uitschieter. Voor de voorbeeldset, 1,5 x 2 = 3; dus 3 - 3 = 0 en 5 + 3 = 8. Dus elke waarde kleiner dan 0 of groter dan 8 zou een milde uitbijter zijn. Dit betekent dat 15 kwalificeert als een milde uitbijter.

Vermenigvuldig het interkwartielbereik met 3. Voeg dit toe aan het bovenste kwartiel en trek het af van het onderste kwartiel. Elk gegevenspunt buiten deze waarden is een extreme uitschieter. Voor de voorbeeldset, 3 x 2 = 6; dus 3 - 6 = -3 en 5 + 6 = 11. Dus elke waarde kleiner dan -3 of groter dan 11 zou een extreme uitbijter zijn. Dit betekent dat 15 kwalificeert als een extreme uitbijter.

Tip

Extreme uitschieters zijn meer indicatief voor een slecht datapunt dan een milde uitbijter.