science >> Wetenschap >  >> Wiskunde

Hoe de Centroid te vinden in een Clustering-analyse

Clusteranalyse is een methode om gegevens te ordenen in representatieve groepen op basis van vergelijkbare kenmerken. Elk lid van het cluster heeft meer gemeen met andere leden van hetzelfde cluster dan met leden van de andere groepen. Het meest representatieve punt binnen de groep wordt het zwaartepunt genoemd. Meestal is dit het gemiddelde van de waarden van de gegevenspunten in het cluster.

Organiseer de gegevens. Als de gegevens uit een enkele variabele bestaan, kan een histogram geschikt zijn. Als twee variabelen een rol spelen, teken dan de grafiek uit op een coördinatenvlak. Als u bijvoorbeeld kijkt naar de lengte en het gewicht van schoolkinderen in een klaslokaal, plot dan de gegevenspunten voor elk kind in een grafiek, waarbij het gewicht de horizontale as is en de hoogte de verticale as. Als er meer dan twee variabelen bij betrokken zijn, kunnen matrices nodig zijn om de gegevens weer te geven.

Groepeer de gegevens in clusters. Elke cluster moet bestaan ​​uit de gegevenspunten die zich het dichtst bij de cluster bevinden. Voeg in het voorbeeld hoogte en gewicht gegevenspunten toe die dicht bij elkaar lijken te zijn. Het aantal clusters en of elk punt van de gegevens zich in een cluster moet bevinden, kan afhankelijk zijn van de doeleinden van de studie.

Voeg voor elke cluster de waarden van alle leden toe. Als een cluster met gegevens bijvoorbeeld bestond uit de punten (80, 56), (75, 53), (60, 50) en (68,54), zou de som van de waarden zijn (283, 213).

Deel het totaal door het aantal leden van het cluster. In het bovenstaande voorbeeld is 283 gedeeld door vier 70,75 en 213 gedeeld door vier is 53,25, dus het zwaartepunt van het cluster is (70,75, 53,25).

Teken het clusterhartroids uit en bepaal of er punten dichterbij zijn naar een zwaartepunt van een ander cluster dan naar het zwaartepunt van hun eigen cluster. Als er punten dichter bij een ander zwaartepunt liggen, verspreid ze dan opnieuw naar het cluster met het dichtstbijzijnde zwaartepunt.

Herhaal stap 3, 4 en 5 totdat alle gegevenspunten zich in het cluster bevinden met het zwaartepunt waarop ze zich het dichtst bevinden .

Tip

Als het zwaartepunt een bepaald gegevenspunt moet zijn in plaats van een middelpunt tussen de gegevens, dan kan de mediaan worden gebruikt om dit te bepalen, in plaats van het gemiddelde.