science >> Wetenschap >  >> Wiskunde

Het verschil tussen cluster- en factoranalyse

Clusteranalyse en factoranalyse zijn twee statistische methoden voor gegevensanalyse. Deze twee vormen van analyse worden veel gebruikt in de natuur- en gedragswetenschappen. Zowel clusteranalyse als factoranalyse stellen de gebruiker in staat om delen van de gegevens te groeperen in "clusters" of in "factoren", afhankelijk van het type analyse. Sommige onderzoekers die nieuw zijn in de methoden van cluster- en factoranalyses kunnen het gevoel hebben dat deze twee soorten analyses in het algemeen vergelijkbaar zijn. Hoewel clusteranalyses en factoranalyses vergelijkbaar lijken aan de oppervlakte, verschillen ze op veel manieren, ook in hun algemene doelstellingen en toepassingen.

Doelstelling

Clusteranalyse en factoranalyse hebben verschillende doelstellingen. Het gebruikelijke doel van factoranalyse is om correlatie in een set gegevens uit te leggen en variabelen aan elkaar te relateren, terwijl het doel van clusteranalyse is om heterogeniteit in elke set gegevens aan te pakken. In de geest is clusteranalyse een vorm van categorisering, terwijl factoranalyse een vorm van vereenvoudiging is.

Complexiteit

Complexiteit is één vraag waarop factoranalyse en clusteranalyse verschillen: gegevensgrootte beïnvloedt elk analyse anders. Naarmate de dataset groeit, wordt clusteranalyse rekenkundig hardnekkig. Dit is waar, omdat het aantal gegevenspunten in clusteranalyse rechtstreeks verband houdt met het aantal mogelijke clusteroplossingen. Het aantal manieren om twintig objecten te verdelen in 4 clusters van gelijke grootte is bijvoorbeeld meer dan 488 miljoen. Dit maakt directe computationele methoden, inclusief de categorie methoden waartoe factoranalyse behoort, onmogelijk.

Oplossing

Hoewel de oplossingen voor zowel factoranalyse als clusteranalyseproblemen tot op zekere hoogte subjectief zijn, factoranalyse stelt een onderzoeker in staat een "beste" oplossing op te leveren, in die zin dat de onderzoeker een bepaald aspect van de oplossing kan optimaliseren (orthogonaliteit, gemak van interpretatie enzovoort). Dit is niet het geval voor clusteranalyse, omdat alle algoritmen die mogelijk een beste clusteranalyseoplossing zouden kunnen opleveren, rekenkundig inefficiënt zijn. Vandaar dat onderzoekers die clusteranalyse gebruiken geen optimale oplossing kunnen garanderen.

Toepassingen

Factoranalyse en clusteranalyse verschillen in hoe ze worden toegepast op echte gegevens. Omdat factoranalyse de mogelijkheid heeft om een ​​logge set variabelen te reduceren tot een veel kleinere set factoren, is het geschikt om complexe modellen te vereenvoudigen. Factoranalyse heeft ook een bevestigend gebruik, waarbij de onderzoeker een reeks hypothesen kan ontwikkelen met betrekking tot de relatie tussen variabelen in de gegevens. De onderzoeker kan vervolgens factoranalyse uitvoeren op de dataset om deze hypothesen te bevestigen of te ontkennen. Clusteranalyse is daarentegen geschikt voor het classificeren van objecten op basis van bepaalde criteria. Een onderzoeker kan bijvoorbeeld bepaalde aspecten van een groep pas ontdekte planten meten en deze planten in soortencategorieën plaatsen door clusteranalyse te gebruiken.