Was ist Clusteranalyse?
Die Clusteranalyse gruppiert Daten basierend auf den Eigenschaften, die sie besitzen. Die Clusteranalyse gruppiert Objekte basierend auf den Faktoren, die sie ähnlich machen. Die Clusteranalyse wird auch als Segmentierungsanalyse oder Taxonomieanalyse bezeichnet. Die Clusteranalyse unterscheidet nicht zwischen abhängigen und unabhängigen Variablen. Die Clusteranalyse wird in einer Vielzahl von Bereichen wie Psychologie, Biologie, Statistik, Data Mining, Mustererkennung und anderen Sozialwissenschaften eingesetzt.
Ziel der Clusteranalyse
Das Hauptziel der Clusteranalyse besteht darin, die Heterogenität in jedem Datensatz zu untersuchen. Die anderen Ziele der Clusteranalyse sind
- Taxonomiebeschreibung - Identifizieren von Gruppen innerhalb der Daten
- Datenvereinfachung - Die Möglichkeit, Gruppen ähnlicher Beobachtungen anstelle aller Einzelbeobachtungen zu analysieren
- Erstellen oder Testen von Hypothesen - Entwickeln Sie Hypothesen auf der Grundlage der Art der Daten oder testen Sie die zuvor angegebene Hypothese
- Beziehungsidentifikation - Die vereinfachte Struktur aus der Clusteranalyse, die die Beziehungen beschreibt
Die Cluster-Analyse dient hauptsächlich zwei Zwecken: dem Verständnis und dem Nutzen.
Unter den Umständen von Understanding gruppiert die Clusteranalyse Objekte, die einige gemeinsame Merkmale aufweisen
Im Sinne von Utility stellt die Clusteranalyse den Clustern, zu denen sie gehören, die Merkmale jedes Datenobjekts zur Verfügung.
Die Clusteranalyse geht Hand in Hand mit der Faktoranalyse und der Diskriminanzanalyse.
Bevor Sie beginnen, sollten Sie sich einige Fragen zur Clusteranalyse stellen
- Welche Variablen sind relevant?
- Ist der Stichprobenumfang ausreichend?
- Können Ausreißer erkannt werden und sollten diese entfernt werden?
- Wie soll Objektähnlichkeit gemessen werden?
- Sollten die Daten standardisiert werden?
Arten von Clustern
Es gibt drei Haupttypen von Clustering
- Hierarchisches Clustering - Enthält agglomerative und divisive Methoden
- Partitional Clustering - Enthält K-Mittelwerte, Fuzzy-K-Mittelwerte und Isodaten darunter
- Dichtebasiertes Clustering - Enthält Denclust, CLUPOT, Mean Shift, SVC und Parzen-Watershed
Annahmen in der Clusteranalyse
Bei der Clusteranalyse gibt es immer zwei Annahmen
- Es wird angenommen, dass die Stichprobe repräsentativ für die Bevölkerung ist
- Es wird angenommen, dass die Variablen nicht korreliert sind. Auch wenn Variablen korreliert sind, entfernen Sie korrelierte Variablen oder verwenden Sie Abstandsmaße, die die Korrelation ausgleichen.
Schritte in der Clusteranalyse
-
- Schritt 1: Definieren Sie das Problem
- Schritt 2: Bestimmen Sie das geeignete Ähnlichkeitsmaß
- Schritt 3: Entscheiden Sie, wie die Objekte gruppiert werden sollen
- Schritt 4: Bestimmen Sie die Anzahl der Cluster
- Schritt 5: Interpretieren, beschreiben und validieren Sie den Cluster
Clusteranalyse in SPSS
In SPSS finden Sie die Option zur Clusteranalyse unter Analysieren / Klassifizieren. In SPSS gibt es drei Methoden für die Clusteranalyse: K-Means Cluster, Hierarchical Cluster und Two Step Cluster.
Die K-Means-Cluster-Methode klassifiziert einen bestimmten Datensatz über eine feste Anzahl von Clustern. Diese Methode ist einfach zu verstehen und liefert die beste Ausgabe, wenn die Daten gut voneinander getrennt sind.
Die zweistufige Clusteranalyse ist ein Tool, das für den Umgang mit großen Datenmengen entwickelt wurde. Es werden Cluster sowohl für kategoriale als auch für kontinuierliche Variablen erstellt.
Hierarchischer Cluster ist die am häufigsten verwendete Methode zur Clusteranalyse. Es kombiniert Fälle zu homogenen Clustern, indem es sie in einer Reihe von aufeinanderfolgenden Schritten zusammenführt.
Die hierarchische Clusteranalyse umfasst drei Schritte
- Berechnen Sie die Entfernung
- Verknüpfe die Cluster
- Auswahl einer Lösung durch Auswahl der richtigen Anzahl von Clustern
Im Folgenden werden die Schritte zum Durchführen der hierarchischen Clusteranalyse in SPSS aufgeführt.
- Der erste Schritt besteht darin, die zu gruppierenden Variablen auszuwählen. Das folgende Dialogfeld erklärt es Ihnen
- Wenn Sie im obigen Dialogfeld auf die Statistikoption klicken, wird das Dialogfeld angezeigt, in dem Sie die Ausgabe festlegen möchten
- Fügen Sie in den Dialogfelddiagrammen das Dendrogramm hinzu. Dendrogramm ist die grafische Darstellung der hierarchischen Clusteranalyse. Es zeigt, wie die Cluster bei jedem Schritt kombiniert werden, bis sie einen einzelnen Cluster bilden.
- Die Dialogfeldmethode ist entscheidend. Hier können Sie den Abstand und die Clustermethode angeben. In SPSS gibt es drei Kennzahlen für Intervall, Anzahl und Binärdaten.
- Der Quadratische Euklidische Abstand ist die Summe der Quadratischen Differenzen ohne Quadratwurzel.
- Bei den Zählungen können Sie zwischen Chi-Quadrat und Phi-Quadrat-Maß wählen
- Im Binärbereich haben Sie viele Möglichkeiten zur Auswahl. Der quadratische euklidische Abstand ist die beste Option.
- Der nächste Schritt ist die Auswahl der Cluster-Methode. Es wird immer empfohlen, Single Linkage oder Nearest Neighbor zu verwenden, da dies die Identifizierung der Ausreißer erleichtert. Nachdem die Ausreißer identifiziert wurden, können Sie die Ward-Methode anwenden.
- Der letzte Schritt ist die Standardisierung
Kritikpunkte der Clusteranalyse
Die häufigsten Kritikpunkte sind unten aufgeführt
- Es ist beschreibend, theoretisch und nicht inferentiell.
- Es werden Cluster erzeugt, unabhängig von der tatsächlichen Existenz einer Struktur
- Es kann nicht weit verbreitet verwendet werden, da es vollständig von den Variablen abhängt, die als Grundlage für das Ähnlichkeitsmaß verwendet werden
Was ist die Faktorenanalyse?
Die Faktorenanalyse ist eine explorative Analyse, mit deren Hilfe ähnliche Variablen in Dimensionen gruppiert werden können. Es kann verwendet werden, um die Daten zu vereinfachen, indem die Abmessungen der Beobachtungen verringert werden. Die Faktoranalyse hat verschiedene Rotationsmethoden.
Die Faktoranalyse wird hauptsächlich zur Datenreduktion verwendet.
Es gibt zwei Arten der Faktorenanalyse: Erkundung und Bestätigung
- Die explorative Methode wird verwendet, wenn Sie keine vordefinierte Vorstellung von den Strukturen oder Dimensionen in einer Reihe von Variablen haben.
- Die Bestätigungsmethode wird verwendet, wenn Sie eine bestimmte Hypothese über die Strukturen oder Dimensionen in einer Reihe von Variablen testen möchten.
Ziele der Faktorenanalyse
Es gibt zwei Hauptziele der Faktoranalyse, die nachstehend erwähnt werden
- Identifizierung der zugrunde liegenden Faktoren - Dazu gehört das Zusammenfassen von Variablen zu homogenen Mengen, das Erstellen neuer Variablen und das Erlernen von Kenntnissen über die Kategorien
- Durchsuchen von Variablen - Dies ist bei der Regression hilfreich und identifiziert Gruppierungen, damit Sie eine Variable auswählen können, die viele darstellt.
Annahmen der Faktorenanalyse
Es gibt vier Hauptannahmen der Faktoranalyse, die nachstehend erwähnt werden
- Modelle basieren normalerweise auf linearen Beziehungen
- Es wird davon ausgegangen, dass die erfassten Daten intervallskaliert sind
- Multikollinearität in den Daten ist wünschenswert, da das Ziel darin besteht, den zusammenhängenden Satz von Variablen herauszufinden
- Die Daten sollten offen sein und auf Faktorenanalysen reagieren. Es sollte nicht so sein, dass eine Variable nur mit sich selbst korreliert und mit keiner anderen Variablen eine Korrelation besteht. Mit diesen Daten kann keine Faktoranalyse durchgeführt werden.
Arten von Factoring
- Hauptkomponenten-Factoring - Die am häufigsten verwendete Methode, bei der Faktorgewichte berechnet werden, um die maximal mögliche Varianz zu extrahieren, und die fortgesetzt wird, bis keine bedeutsame Varianz mehr vorhanden ist.
- Kanonische Faktoranalyse - Findet Faktoren, die die höchste kanonische Korrelation mit den beobachteten Variablen aufweisen
- Analyse gemeinsamer Faktoren - Sucht die geringste Anzahl von Faktoren, die die gemeinsame Varianz einer Reihe von Variablen erklären können
- Image Factoring - Basierend auf der Korrelationsmatrix, in der jede Variable von den anderen unter Verwendung der multiplen Regression vorhergesagt wird
- Alpha Factoring - Maximiert die Zuverlässigkeit von Faktoren
- Faktor-Regressionsmodell - Kombination aus Faktor-Modell und Regressionsmodell, deren Faktoren teilweise bekannt sind
Kriterien der Faktoranalyse
-
Eigenwertkriterien
- Stellt das Ausmaß der Varianz in den ursprünglichen Variablen dar, die mit einem Faktor verbunden sind
- Die Summe des Quadrats der Faktorladungen jeder Variablen auf einem Faktor repräsentiert den Eigenwert
- Faktoren mit Eigenwerten, die größer als 1, 0 sind, werden beibehalten
-
Kriterien für die Darstellung von Geröll
- Eine Darstellung der Eigenwerte gegen die Anzahl der Faktoren in der Reihenfolge der Extraktion.
- Die Form des Diagramms bestimmt die Anzahl der Faktoren
-
Prozentsatz der Varianzkriterien
- Die Anzahl der extrahierten Faktoren wird so ermittelt, dass der zunehmende Prozentsatz der durch die Faktoren extrahierten Varianz den Grad der Zufriedenheit erreicht.
-
Signifikanztestkriterien
- Die statistische Bedeutung der einzelnen Eigenwerte wird ermittelt und nur die statistisch signifikanten Faktoren bleiben erhalten
Die Faktorenanalyse wird in verschiedenen Bereichen wie Psychologie, Soziologie, Politikwissenschaft, Bildung und psychische Gesundheit eingesetzt.
Faktoranalyse in SPSS
In SPSS finden Sie die Option zur Faktoranalyse unter Analysieren à Dimensionsreduktion à Faktor
- Beginnen Sie mit dem Hinzufügen der Variablen zur Liste der Variablen
- Klicken Sie auf die Registerkarte Beschreibung, und fügen Sie einige Statistiken hinzu, unter denen die Annahmen der Faktoranalyse überprüft werden.
- Klicken Sie auf die Option Extraktion, mit der Sie die Extraktionsmethode auswählen und den Wert für die Extraktion abschneiden können
- Principal Components (PCA) ist die Standard-Extraktionsmethode, mit der auch nicht korrelierte Linearkombinationen der Variablen extrahiert werden. PCA kann verwendet werden, wenn eine Korrelationsmatrix singulär ist. Es ist der kanonischen Korrelationsanalyse sehr ähnlich, bei der der erste Faktor die maximale Varianz aufweist und die folgenden Faktoren einen kleineren Teil der Varianz erklären.
- Die zweithäufigste allgemeine Analyse ist das Faktorisieren der Hauptachse. Es identifiziert die latenten Konstrukte hinter den Beobachtungen.
- Der nächste Schritt ist die Auswahl einer Rotationsmethode. Die am häufigsten verwendete Methode ist Varimax. Diese Methode vereinfacht die Interpretation der Faktoren.
- Die zweite Methode ist Quartimax. Diese Methode dreht die Faktoren, um die Anzahl der Faktoren zu minimieren. Dies vereinfacht die Interpretation der beobachteten Variablen.
- Die nächste Methode ist Equamax, eine Kombination der beiden oben genannten Methoden.
- Im Dialogfeld können Sie durch Klicken auf die „Optionen“ die fehlenden Werte verwalten
- Bevor Sie die Ergebnisse in einem Datensatz speichern, führen Sie zunächst die Faktoranalyse durch und überprüfen Sie, ob Annahmen vorliegen. Stellen Sie sicher, dass die Ergebnisse aussagekräftig und nützlich sind.
Cluster-Analyse vs Faktor-Analyse
Sowohl die Clusteranalyse als auch die Faktoranalyse sind unbeaufsichtigte Lernmethoden, die zur Segmentierung von Daten verwendet werden. Viele Forscher, die auf diesem Gebiet neu sind, sind der Meinung, dass die Clusteranalyse und die Faktoranalyse ähnlich sind. Es mag ähnlich erscheinen, aber sie unterscheiden sich in vielerlei Hinsicht. Die Unterschiede zwischen der Clusteranalyse und der Faktoranalyse sind nachstehend aufgeführt
-
Zielsetzung
Das Ziel der Cluster- und Faktoranalyse ist unterschiedlich. Ziel der Clusteranalyse ist es, die Beobachtungen in homogene und unterschiedliche Gruppen zu unterteilen. Die Faktorenanalyse erklärt dagegen die Homogenität der Variablen, die sich aus der Ähnlichkeit der Werte ergibt.
-
Komplexität
Die Komplexität ist ein weiterer Faktor, bei dem sich Cluster- und Faktoranalyse unterscheiden. Die Datengröße wirkt sich unterschiedlich auf die Analyse aus. Wenn die Datenmenge zu groß ist, kann sie bei der Clusteranalyse nicht mehr berechnet werden.
-
Lösung
Die Lösung eines Problems ist sowohl in der Faktor- als auch in der Clusteranalyse mehr oder weniger ähnlich. Aber die Faktorenanalyse bietet dem Forscher eine bessere Lösung in einem besseren Aspekt. Die Clusteranalyse liefert nicht das beste Ergebnis, da alle Algorithmen in der Clusteranalyse rechnerisch ineffizient sind.
-
Anwendungen
Faktoranalyse und Clusteranalyse werden auf reale Daten unterschiedlich angewendet. Die Faktorenanalyse eignet sich zur Vereinfachung komplexer Modelle. Es reduziert den großen Satz von Variablen auf einen viel kleineren Satz von Faktoren. Der Forscher kann eine Reihe von Hypothesen entwickeln und eine Analyse der Lauffaktoren durchführen, um diese Hypothese zu bestätigen oder zu leugnen.
Die Clusteranalyse eignet sich zur Klassifizierung von Objekten anhand bestimmter Kriterien. Der Forscher kann bestimmte Aspekte einer Gruppe messen und mithilfe der Clusteranalyse in bestimmte Kategorien unterteilen.
Es gibt auch viele andere Unterschiede, die unten erwähnt werden
- Die Clusteranalyse versucht, Fälle zu gruppieren, während die Faktoranalyse versucht, Features zu gruppieren.
- Die Clusteranalyse wird verwendet, um kleinere Gruppen von Fällen zu finden, die repräsentativ für Daten als Ganzes sind. Die Faktorenanalyse wird verwendet, um eine kleinere Gruppe von Merkmalen zu finden, die für die ursprünglichen Merkmale der Datensätze repräsentativ sind.
- Der wichtigste Teil der Clusteranalyse besteht darin, die Anzahl der Cluster zu ermitteln. Grundsätzlich werden Clustering-Methoden in zwei Methoden unterteilt: Agglomerative Methode und Partitionierungsmethode. Die agglomerative Methode beginnt jeweils in einem eigenen Cluster und endet, wenn ein Kriterium erreicht ist. Die Partitionierungsmethode beginnt mit allen Fällen in einem Cluster.
- Die Faktorenanalyse wird verwendet, um eine zugrunde liegende Struktur in einem Datensatz zu ermitteln.
Fazit
Hoffe, dieser Artikel hätte Ihnen geholfen, die Grundlagen der Cluster- und Faktoranalyse sowie die Unterschiede zwischen beiden zu verstehen.
Ähnliche Kurse :-
- Cluster-Analyse-Kurs