Einführung in Clustering-Methoden
Dieser Artikel bietet einen Überblick über verschiedene Clusteringmethoden, die in Data Mining-Techniken mit unterschiedlichen Prinzipien verwendet werden. Clustering ist eine Gruppe von Datenobjekten, die in einer anderen logischen Gruppierung angeordnet sind. Gruppieren ähnlicher Datenelemente und Zuweisen ähnlicher Datenelemente zu einzelnen Clustern. Clustering wird in großen Datenmengen für unbeaufsichtigtes Lernen durchgeführt. Währenddessen partitionieren wir den Datensatz in Gruppen. Die Struktur des Clusters wird mit Teilmengen wie folgt dargestellt. C = c1, c2 … cn. Da Clustering-Gruppen ähnliche Objekte haben, müssen in Clustering-Methoden einige Maßnahmen ergriffen werden, um Entfernungs- und Ähnlichkeitsmaße zu bestimmen. Clustering-Methoden basieren auf probabilistischen Modellen. Für das Data Mining ist ein Clustering erforderlich, damit die Skalierbarkeit mit hohen Datenbanken, mehrdimensionalem Speicherplatz und fehlerhaften Daten und Störungen umgehen kann.
Erklären Sie Clustering-Methoden?
Diese Cluster-Methode hilft dabei, wertvolle Daten in Clustern zu gruppieren und daraus auf der Grundlage verschiedener Techniken geeignete Ergebnisse zu ermitteln. Beispiel: Beim Abrufen von Informationen werden die Ergebnisse der Abfrage in kleine Cluster gruppiert, und jeder Cluster hat irrelevante Ergebnisse. Durch Clustering-Techniken werden sie in ähnliche Kategorien gruppiert, und jede Kategorie wird in Unterkategorien unterteilt, um die Untersuchung der Abfrageausgabe zu erleichtern. Es gibt verschiedene Arten von Clustering-Methoden
- Hierarchische Methoden
- Partitionierungsmethoden
- Dichtebasiert
- Modellbasiertes Clustering
- Gitterbasiertes Modell
Im Folgenden finden Sie eine Übersicht über Techniken, die beim Data Mining und der künstlichen Intelligenz verwendet werden.
1. Hierarchische Methode
Diese Methode erstellt einen Cluster, indem sie entweder von oben nach unten oder von unten nach oben partitioniert. Diese beiden Ansätze erzeugen ein Dendrogramm und stellen die Konnektivität zwischen ihnen her. Das Dendrogramm ist ein baumartiges Format, das die Reihenfolge der zusammengeführten Cluster beibehält. Hierarchische Methoden erzeugen mehrere Partitionen in Bezug auf Ähnlichkeitsstufen. Sie sind in agglomeratives hierarchisches Clustering und divisives hierarchisches Clustering unterteilt. Hier wird ein Clusterbaum mithilfe von Zusammenführungstechniken erstellt. Für den Aufteilungsprozess wird divisiv verwendet, das Zusammenführen agglomerativ. Agglomeratives Clustering umfasst:
- Zunächst werden alle Datenpunkte von oben nach unten erfasst und als einzelne Cluster betrachtet. Diese Cluster werden zusammengeführt, bis wir die gewünschten Ergebnisse erhalten.
- Die nächsten beiden ähnlichen Cluster werden zu einem riesigen einzelnen Cluster zusammengefasst.
- Berechnen Sie erneut die Nähe im riesigen Cluster und führen Sie die ähnlichen Cluster zusammen.
- Der letzte Schritt beinhaltet das Zusammenführen aller erhaltenen Cluster in jedem Schritt, um einen einzigen endgültigen Cluster zu bilden.
2. Partitionierungsmethode:
Das Hauptziel der Teilung ist die Verlagerung. Sie verschieben Partitionen, indem sie von einem Cluster zu einem anderen wechseln, wodurch eine anfängliche Partitionierung erfolgt. Es unterteilt 'n' Datenobjekte in 'k' Cluster. Diese Partitionsmethode wird bei der Mustererkennung mehr als ein hierarchisches Modell bevorzugt. Die folgenden Kriterien werden festgelegt, um die Techniken zu erfüllen:
- Jeder Cluster sollte ein Objekt haben.
- Jedes Datenobjekt gehört zu einem einzelnen Cluster.
Die am häufigsten verwendeten Partitionstechniken sind die K-Mean-Algorithmen. Sie unterteilen sich in K-Cluster, die durch Zentroide dargestellt werden. Jedes Clusterzentrum wird als Mittelwert dieses Clusters berechnet und die R-Funktion visualisiert das Ergebnis. Dieser Algorithmus hat die folgenden Schritte:
- Zufällige Auswahl von K Objekten aus dem Datensatz und Bildung der Anfangszentren (Zentroide)
- Als nächstes wird der euklidische Abstand zwischen den Objekten und dem Mittelwert zugewiesen.
- Vergabe eines Mittelwertes für jeden einzelnen Cluster.
- Schritte zur Aktualisierung des Schwerpunkts für jeden "k" -Cluster.
3. Dichtemodell:
In diesem Modell werden Cluster definiert, indem Regionen mit höherer Dichte in einem Cluster lokalisiert werden. Das Hauptprinzip besteht darin, sich auf zwei Parameter zu konzentrieren: den maximalen Radius der Nachbarschaft und die minimale Anzahl von Punkten. Das dichtebasierte Modell identifiziert Cluster mit unterschiedlichen Formen und Rauschen. Es erkennt Muster durch Schätzen des räumlichen Standorts und der Entfernung zum Nachbarn. Dabei wird DBSCAN (Density-based Spatial Clustering) verwendet, mit dem große räumliche Datenbanken erfasst werden können. Verwenden von drei Datenpunkten für die Clusterbildung, nämlich Kernpunkten, Grenzpunkten und Ausreißern. Das primäre Ziel ist die Identifizierung der Cluster und ihrer Verteilungsparameter. Der Clustering-Prozess wird mit der Notwendigkeit von Dichteparametern gestoppt. Um die Cluster zu finden, ist es wichtig, einen Parameter Minimum features Per Cluster für die Berechnung der Kernentfernung anzugeben. Die drei verschiedenen Tools, die von diesem Modell bereitgestellt werden, sind DBSCAN, HDBSCAN und Multi-Scale.
4. Modellbasiertes Clustering
Dieses Modell kombiniert zwei oder drei Cluster aus der Datenverteilung. Die Grundidee hinter diesem Modell ist es, Daten basierend auf dem Wahrscheinlichkeitsmodell (Multivariate Normalverteilungen) in zwei Gruppen zu unterteilen. Hier wird jede Gruppe als Konzepte oder Klasse zugeordnet. Jede Komponente wird durch eine Dichtefunktion definiert. Um den Parameter in diesem Modell zu finden, wird die Maximum-Likelihood-Schätzung für die Anpassung der Gemischverteilung verwendet. Jeder Cluster 'K' wird durch Gaußsche Verteilung mit dem Zwei-Parameter-Durchschnittsvektor µk und dem Kovarianzvektor £ k modelliert.
5. Gitterbasiertes Modell
Bei diesem Ansatz werden die Objekte als raumgetrieben betrachtet, indem der Raum in eine endliche Anzahl von Zellen unterteilt wird, um ein Gitter zu bilden. Mithilfe des Rasters wird die Clustering-Technik für eine schnellere Verarbeitung angewendet, die normalerweise von Zellen abhängt, die nicht von Objekten abhängen. Schritte sind:
- Erstellung der Gitterstruktur
- Die Zelldichte wird für jede Zelle berechnet
- Anwenden eines Sortiermechanismus auf ihre Dichten.
- Durchsuchen von Cluster-Zentren und Durchsuchen von Nachbarzellen, um den Vorgang zu wiederholen.
Bedeutung von Clustering-Methoden
- Clustering-Methoden helfen dabei, die lokale Suche neu zu starten und die Ineffizienz zu beseitigen. Clustering hilft dabei, die interne Struktur der Daten zu bestimmen.
- Diese Clusteranalyse wurde für die Modellanalyse, Vektorregion der Anziehung, verwendet.
- Clustering hilft beim Verständnis der natürlichen Gruppierung in einem Datensatz. Ihr Zweck ist es, die Daten sinnvoll in eine Gruppe logischer Gruppierungen zu unterteilen.
- Die Qualität der Cluster hängt von den Methoden und der Identifizierung verborgener Muster ab.
- Sie spielen eine große Rolle in Anwendungen wie Marketing-Wirtschaftsforschung, Weblogs zur Identifizierung von Mustern bei Ähnlichkeitsmessungen, Bildverarbeitung und Raumforschung.
- Sie werden in Ausreißererkennungen verwendet, um Kreditkartenbetrug zu erkennen.
Fazit
Clustering wird als allgemeine Aufgabe zur Lösung des Optimierungsproblems angesehen. Es spielt eine Schlüsselrolle im Bereich Data Mining und Datenanalyse. Wir haben verschiedene Clustering-Methoden gesehen, die den Datensatz abhängig von den Anforderungen aufteilen. Der größte Teil der Forschung basiert auf traditionellen Techniken wie K-Mitteln und hierarchischen Modellen. Clusterbereiche werden in hochdimensionalen Zuständen angewendet, was einen zukünftigen Forschungsbereich darstellt.
Empfohlener Artikel
Dies war ein Leitfaden für Clustering-Methoden. Hier diskutierten wir das Konzept, die Wichtigkeit und die Techniken von Clustering-Methoden. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -
- Was ist ETL?
- Was ist Data Science?
- Was ist Teradata?
- Top 6 AWS-Alternativen
- Clustering im maschinellen Lernen
- Multivariate Regression
- Hierarchisches Clustering | Agglomeratives & Divisives Clustering