Einführung in Data Mining-Typen
Der Begriff „Data Mining“ bedeutet, dass wir einen großen Datensatz untersuchen und Daten daraus abbauen müssen, um das Wesentliche dessen darzustellen, was Daten aussagen möchten. Ähnlich wie beim Kohlebergbau, bei dem die Kohle tief unter der Erde mit verschiedenen Werkzeugen abgebaut wird, werden beim Data Mining auch Werkzeuge eingesetzt, um das Beste aus den Daten herauszuholen. Eine sehr häufige Fehlinterpretation beim Data Mining ist, dass es als etwas angesehen wird, bei dem versucht wird, neue Daten zu extrahieren, dies jedoch nicht immer der Fall ist. Es bezieht sich auch auf etwas, bei dem wir versuchen, aus den bereits vorhandenen Daten einen Sinn zu gewinnen. Daher ist Data Mining an sich ein weites Feld, in dem wir uns in den nächsten Absätzen eingehend mit den Tools in Data Mining befassen. In diesem Artikel werden die Arten von Data Mining erläutert.
Was ist Data Mining?
Wie wir bereits früher über Data Mining gesprochen haben, ist Data Mining ein Prozess, bei dem wir versuchen, das Beste aus den Daten herauszuholen. Die Tools des Data Mining fungieren als Brücke zwischen den Daten und den Informationen aus den Daten. In einigen Blogs wird Data Mining auch als Knowledge Discovery bezeichnet. Hier möchten wir einen kurzen Überblick über den Data Mining-Implementierungsprozess geben, damit die Intuition hinter dem Data Mining klar und für den Leser verständlich wird. Unterhalb des Flussdiagramms ist der Fluss dargestellt:
In dem oben diskutierten Prozess gibt es auf jeder Ebene Werkzeuge, und wir würden versuchen, uns eingehend mit den wichtigsten zu befassen.
Arten von Data Mining
Data Mining kann für die folgenden Datentypen durchgeführt werden:
1. Glätten (Daten vorbereiten)
Diese spezielle Methode der Data Mining-Technik gehört zum Genre der Datenaufbereitung. Die Hauptabsicht dieser Technik besteht darin, Rauschen aus den Daten zu entfernen. Hier werden Algorithmen wie einfaches Exponential, der gleitende Durchschnitt verwendet, um das Rauschen zu beseitigen. Während der Erkundungsanalyse ist diese Technik sehr praktisch, um Trends / Stimmungen zu visualisieren.
2. Aggregation (Daten vorbereiten)
Wie der Begriff andeutet, wird eine Gruppe von Daten aggregiert, um mehr Informationen zu erhalten. Diese Technik wird verwendet, um einen Überblick über die Geschäftsziele zu geben. Sie kann manuell oder mithilfe einer speziellen Software durchgeführt werden. Diese Technik wird im Allgemeinen für Big Data verwendet, da Big Data nicht die erforderlichen Informationen als Ganzes bereitstellt.
3. Generalisierung (Daten vorbereiten)
Wie der Name schon sagt, wird diese Technik verwendet, um Daten als Ganzes zu verallgemeinern. Dies unterscheidet sich von der Aggregation darin, dass die Daten während der Generalisierung nicht zu Gruppen zusammengefasst werden, um mehr Informationen zu erhalten, sondern dass der gesamte Datensatz generalisiert wird. Dadurch kann ein Data-Science-Modell an neuere Datenpunkte angepasst werden.
4. Normalisierung (Daten vorbereiten)
Bei dieser Technik werden Datenpunkte mit besonderer Sorgfalt analysiert, um sie für die Analyse in den gleichen Maßstab zu bringen. Zum Beispiel fallen das Alter und das Gehalt einer Person in verschiedene Maßstäbe, sodass wir durch grafische Darstellung keine nützlichen Informationen über die Trends erhalten, die als kollektives Merkmal vorliegen. Mit der Normalisierung können wir sie in den gleichen Maßstab bringen, so dass ein Vergleich von Apfel zu Apfel durchgeführt werden kann.
5. Attribut- / Merkmalsauswahl (Daten vorbereiten)
In dieser Technik verwenden wir Methoden, um eine Auswahl von Features durchzuführen, sodass das zum Trainieren der Datensätze verwendete Modell einen Wert implizieren kann, um die Daten vorherzusagen, die es nicht gesehen hat. Dies ist sehr analog zur Auswahl des richtigen Outfits aus einem Kleiderschrank voller Kleidung, um sich für die Veranstaltung zu eignen. Nicht relevante Funktionen können die Modellleistung negativ beeinflussen, geschweige denn die Leistung verbessern.
6. Klassifizierung (Modellieren der Daten)
In dieser Technik des Data Mining werden Gruppen behandelt, die als "Klassen" bekannt sind. Bei dieser Technik werden die ausgewählten Features (wie oben erläutert) gemeinsam für Gruppen / Kategorien verwendet. Wenn wir zum Beispiel in einem Geschäft beurteilen müssen, ob eine Person ein Produkt kauft oder nicht, können wir insgesamt n Funktionen verwenden, um ein Ergebnis von Wahr / Falsch zu erhalten.
7. Musterverfolgung
Dies ist eine der grundlegenden Techniken beim Data Mining, um Informationen über Trends / Muster zu erhalten, die von den Datenpunkten angezeigt werden könnten. Beispielsweise können wir einen Trend zu mehr Verkäufen an Wochenenden oder Feiertagen und nicht an Wochentagen oder Arbeitstagen feststellen.
8. Ausreißeranalyse oder Anomalieerkennung
Wie der Name schon sagt, wird diese Technik zum Auffinden oder Analysieren von Ausreißern oder Anomalien verwendet. Ausreißer oder Anomalien sind keine negativen Datenpunkte, sondern unterscheiden sich lediglich vom allgemeinen Trend des gesamten Datensatzes. Wenn wir die Ausreißer identifiziert haben, können wir sie entweder vollständig aus dem Datensatz entfernen, was der Fall ist, wenn die Datenaufbereitung abgeschlossen ist. Oder diese Technik wird ausgiebig in Modelldatensätzen verwendet, um auch Ausreißer vorherzusagen.
9. Clustering
Diese Technik ist der Klassifizierung ziemlich ähnlich, aber der einzige Unterschied besteht darin, dass wir nicht wissen, in welche Gruppe Datenpunkte nach der Gruppierung nach der Sammlung von Features fallen. Diese Methode wird normalerweise zum Gruppieren von Personen verwendet, um ähnliche Produktempfehlungen zu erzielen.
10. Regression
Diese Technik wird verwendet, um die Wahrscheinlichkeit eines Merkmals mit dem Vorhandensein anderer Merkmale vorherzusagen. Zum Beispiel können wir die Wahrscheinlichkeit des Preises eines Artikels in Bezug auf Nachfrage, Wettbewerb und einige andere Merkmale formulieren.
11. Neuronales Netzwerk
Diese Technik basiert auf dem Prinzip, wie biologische Neuronen funktionieren. Ähnlich wie die Neuronen im menschlichen Körper fungieren auch die Neuronen in einem neuronalen Netzwerk bei der Data-Mining-Arbeit als Verarbeitungseinheit und verbinden ein anderes Neuron, um die Informationen entlang der Kette weiterzuleiten.
12. Verein
Bei dieser Methode des Data Mining wird die Beziehung zwischen verschiedenen Features ermittelt und anschließend entweder zum Auffinden von verborgenen Mustern verwendet oder eine entsprechende Analyse gemäß den Geschäftsanforderungen durchgeführt. Wenn wir beispielsweise die Zuordnung verwenden, können wir Features finden, die miteinander korrelieren, und daher das Entfernen von Personen hervorheben, um einige redundante Features zu entfernen und die Verarbeitungsleistung / -zeit zu verbessern.
Fazit
Abschließend sind verschiedene Anforderungen zu berücksichtigen, die beim Durchführen von Data Mining zu berücksichtigen sind. Man muss sehr vorsichtig sein, wie hoch die erwartete Ausgabe sein soll, damit entsprechende Techniken zum Erreichen des Ziels verwendet werden können. Obwohl Data Mining ein sich entwickelnder Bereich ist, haben wir versucht, eine vollständige Liste für alle Arten von Tools in Data Mining zu erstellen, die oben für Leser aufgeführt wurden.
Empfohlene Artikel
Dies ist eine Anleitung zum Data Mining-Typ. Hier diskutieren wir die Einführung und die 12 wichtigsten Arten von Data Mining. Sie können auch unsere anderen Artikelvorschläge durchgehen -
- Vorteile von Data Mining
- Data Mining-Architektur
- Data Mining-Methoden
- Data Mining-Tool
- Modelltypen in Data Mining