science >> Wetenschap >  >> Wiskunde

Wat zijn hiaten, clusters en uitbijters in wiskunde?

Bedrijfs-, overheids- en academische activiteiten vereisen bijna altijd het verzamelen en analyseren van gegevens. Een van de manieren om numerieke gegevens weer te geven, is door middel van grafieken, histogrammen en diagrammen. Met deze visualisatietechnieken kunnen mensen een beter inzicht krijgen in problemen en oplossingen bedenken. Hiaten, clusters en uitbijters zijn kenmerken van gegevenssets die van invloed zijn op wiskundige analyses en die gemakkelijk zichtbaar zijn op visuele weergaven.

Gaten in de gegevens

Gaten verwijzen naar ontbrekende gebieden in een gegevensverzameling. Als een wetenschappelijk experiment bijvoorbeeld temperatuurgegevens verzamelt in het bereik van 50 graden Fahrenheit tot 100 graden Fahrenheit, maar niets tussen 70 en 80 graden, zou dat een gat in de gegevensverzameling vertegenwoordigen. Een lijndiagram van deze dataset zou "x" -tekens hebben voor temperaturen tussen 50 en 70 en opnieuw tussen 80 en 100, maar er zou niets tussen 70 en 80 zijn. Onderzoekers kunnen dieper graven en onderzoeken waarom bepaalde gegevenspunten niet verschijnen in een verzameld voorbeeld.

Geïsoleerde groepen

Clusters zijn geïsoleerde groepen gegevenspunten. Lijndiagrammen, die een van de manieren zijn om datasets weer te geven, zijn lijnen met 'x'-markeringen die boven specifieke getallen zijn geplaatst om hun frequentie van voorkomen in de dataset weer te geven. Een cluster wordt afgebeeld als een verzameling van deze "x" -tekens in een klein interval of datasubset. Als de examenscores voor een klas van 10 studenten bijvoorbeeld 74, 75, 80, 72, 74, 75, 76, 86, 88 en 73 zijn, zouden de meeste "x" -tekens op een lijnplot in de 72- tot -76 score-interval. Dit zou een gegevenscluster vertegenwoordigen. Merk op dat de frequentie voor 74 en 75 twee is, maar voor alle andere scores is het één.

Op de extremen

Uitschieters zijn extreme waarden - datapunten die significant buiten andere waarden liggen in een dataset. Een uitbijter moet aanzienlijk kleiner of groter zijn dan het merendeel van de cijfers in een gegevensverzameling. De definitie van "extreem" hangt af van de omstandigheid en een consensus van de analisten die bij het onderzoek zijn betrokken. Uitschieters kunnen slechte gegevenspunten zijn, ook bekend als ruis, of ze kunnen waardevolle informatie bevatten over het fenomeen dat wordt onderzocht en de gegevensverzamelingsmethode zelf. Als klassescores bijvoorbeeld meestal in het bereik van 70 tot 80 voorkomen, maar een aantal scores in de lage 50s staan, kunnen deze uitschieters vertegenwoordigen.

Alles bij elkaar plaatsen

Hiaten uitschieters en clusters in datasets kunnen van invloed zijn op de resultaten van wiskundige analyse. Hiaten en clusters kunnen fouten in de methodologie voor gegevensverzameling vertegenwoordigen. Als een telefonische enquête bijvoorbeeld alleen bepaalde landcodes bestudeert, zoals wooncomplexen met een laag inkomen of woonwijken in de hoge buitenwijken, en geen brede dwarsdoorsnede van de bevolking, is de kans groot dat er hiaten en clusters in de gegevens zijn. . Uitbijters kunnen de gemiddelde of gemiddelde waarde van een gegevensverzameling scheeftrekken. De gemiddelde of gemiddelde waarde van een gegevensset bestaande uit vier getallen - 50, 55, 65 en 90 - is bijvoorbeeld 65. Zonder de uitbijter 90 is het gemiddelde echter ongeveer 57.