Einführung in Klassifizierungsalgorithmen

Dieser Artikel über Klassifizierungsalgorithmen gibt einen Überblick über verschiedene Klassifizierungsmethoden, die üblicherweise in Data Mining-Techniken mit unterschiedlichen Prinzipien verwendet werden. Die Klassifizierung ist eine Technik, bei der Daten in eine bestimmte Anzahl von Klassen eingeteilt werden und jeder Klasse eine Bezeichnung zugewiesen wird. Das Hauptziel der Klassifizierung besteht darin, die Klasse zu identifizieren, um neue Daten durch Analyse des Trainingssatzes zu starten, indem geeignete Grenzen erkannt werden. Die Vorhersage der Zielklasse und des obigen Prozesses wird im Allgemeinen als Klassifizierung bezeichnet.

Beispielsweise zeichnet die Krankenhausleitung den Namen, die Adresse, das Alter und die Vorgeschichte des Patienten auf, um sie zu diagnostizieren. Dies hilft bei der Klassifizierung der Patienten. Sie können in zwei Phasen unterteilt werden: eine Lernphase und eine Evaluierungsphase. Die Lernphase modelliert die Ansatzbasis anhand von Trainingsdaten, während die Evaluierungsphase die Ausgabe für die angegebenen Daten vorhersagt. Wir konnten ihre Anwendungen in E-Mail-Spam, Bankdarlehensvorhersage, Spracherkennung und Stimmungsanalyse finden. Die Technik beinhaltet die mathematische Funktion f mit Eingang X und Ausgang Y.

Erklären Sie die Klassifizierungsalgorithmen im Detail

Die Klassifizierung kann sowohl für strukturierte als auch für unstrukturierte Daten durchgeführt werden. Die Klassifizierung kann in kategorisiert werden

  1. Naiver Bayes-Klassifikator
  2. Entscheidungsbäume
  3. Unterstützung Vektor Maschine
  4. Zufälliger Wald
  5. K - Nächste Nachbarn

1) Naiver Bayes-Klassifikator

Es ist ein auf dem Bayes-Theorem basierender Algorithmus, eine der statistischen Klassifikationen, und erfordert nur wenige Trainingsdaten, um die Parameter abzuschätzen, die auch als probabilistische Klassifikatoren bezeichnet werden. Es gilt als der schnellste Klassifikator, hoch skalierbar und verarbeitet sowohl diskrete als auch kontinuierliche Daten. Dieser Algorithmus dient zur Vorhersage in Echtzeit. Es gibt verschiedene Arten von naiven Klassifikatoren: Multinomial Naive Bayes, Bernoulli Naive Bayes und Gaußsche Naive.

Die Bayes'sche Klassifikation mit posterioren Wahrscheinlichkeiten ist gegeben durch

Wo A, B Ereignisse sind, P (A | B) - hintere Wahrscheinlichkeiten.

Wenn zwei Werte unabhängig voneinander sind,

P (A, B) = P (A) P (B)

Naive Bayes können mit der Python-Bibliothek erstellt werden. Naives Prädiktoren sind unabhängig, obwohl sie in Empfehlungssystemen verwendet werden. Sie werden in vielen Echtzeitanwendungen und wissentlich bei der Klassifizierung von Dokumenten verwendet.

Vorteile:

Der Vorteil besteht darin, dass sie sehr viel weniger Rechenleistung erfordern, vorausgesetzt, dass bei Problemen mit mehreren Klassenvorhersagen große Datensätze präzise verarbeitet werden können.

Nachteil:

Der Hauptnachteil dieses Klassifikators ist, dass sie eine Wahrscheinlichkeit von Null zuweisen. Und sie haben voneinander unabhängige Eigenschaften.

2) Entscheidungsbaum

Es ist ein Top-Down-Modell, bei dem die Struktur des Flussdiagramms hochdimensionale Daten verarbeitet. Die Ergebnisse werden basierend auf der angegebenen Eingabevariable vorhergesagt. Entscheidungsbaum bestehend aus folgenden Elementen: Eine Wurzel, viele Knoten, Zweige, Blätter. Der Wurzelknoten nimmt die Partition basierend auf dem Attributwert der Klasse vor, der interne Knoten nimmt ein Attribut zur weiteren Klassifizierung an, Zweige treffen eine Entscheidungsregel, um die Knoten in Blattknoten aufzuteilen, und der Blattknoten gibt uns das endgültige Ergebnis. Die zeitliche Komplexität des Entscheidungsbaums hängt von der Anzahl der Datensätze und den Attributen der Trainingsdaten ab. Wenn der Entscheidungsbaum zu lang ist, ist es schwierig, die gewünschten Ergebnisse zu erzielen.

Vorteil: Sie werden für Predictive Analytics zur Lösung der Probleme eingesetzt und in täglichen Aktivitäten zur Auswahl des Ziels auf der Grundlage von Entscheidungsanalysen verwendet. Erstellt automatisch ein Modell basierend auf den Quelldaten. Am besten mit fehlenden Werten umgehen.

Nachteil: Die Größe des Baums kann nicht gesteuert werden, bis bestimmte Stoppkriterien erfüllt sind. Baum ist aufgrund ihrer hierarchischen Struktur instabil.

3) Unterstützung von Vector Machine

Dieser Algorithmus spielt eine wichtige Rolle bei Klassifizierungsproblemen und am häufigsten bei maschinellem Lernen überwachten Algorithmen. Es ist ein wichtiges Werkzeug, das vom Forscher und Datenwissenschaftler verwendet wird. Diese SVM ist sehr einfach und ihr Verfahren besteht darin, eine Hyperebene in einem N-dimensionalen Raum von Datenpunkten zu finden. Hyperebenen sind Entscheidungsgrenzen, die die Datenpunkte klassifizieren. All dieser Vektor fällt näher an die Hyperebene, maximiert den Rand des Klassifikators. Wenn der Spielraum maximal ist, ist der Verallgemeinerungsfehler der niedrigste. Ihre Implementierung kann mit dem Kernel unter Verwendung von Python mit einigen Trainingsdatensätzen erfolgen. Das Hauptziel des SVM ist es, ein Objekt in eine bestimmte Klassifikation einzuordnen. SVM ist nicht darauf beschränkt, ein linearer Klassifikator zu werden. SVM wird aufgrund seiner Kernelfunktion, die die Recheneffizienz verbessert, mehr als jedes andere Klassifizierungsmodell bevorzugt.

Vorteil: Sie sind wegen ihrer geringeren Rechenleistung und effektiven Genauigkeit sehr zu bevorzugen. Effektiv im hochdimensionalen Raum, gute Speichereffizienz.

Nachteil: Einschränkungen in Geschwindigkeit, Kernel und Größe

4) Zufälliger Wald

Es ist ein leistungsstarker Algorithmus für maschinelles Lernen, der auf dem Ensemble-Lernansatz basiert. Der Grundbaustein von Random Forest ist der Entscheidungsbaum, mit dem Vorhersagemodelle erstellt werden. Die Arbeitsdemonstration umfasst das Erstellen einer Gesamtheit zufälliger Entscheidungsbäume. Der Bereinigungsprozess wird ausgeführt, indem Stoppsplits festgelegt werden, um ein besseres Ergebnis zu erzielen. Zufällige Gesamtstruktur wird mithilfe einer Technik implementiert, die als Absacken bezeichnet wird, um Entscheidungen zu treffen. Dieses Absacken verhindert eine Überanpassung der Daten, indem die Vorspannung verringert wird. In ähnlicher Weise kann dieser Zufall eine bessere Genauigkeit erzielen. Eine endgültige Vorhersage wird von einem Durchschnitt vieler Entscheidungsbäume getroffen, dh häufigen Vorhersagen. Die zufällige Gesamtstruktur enthält viele Anwendungsfälle wie Börsenvorhersagen, Betrugserkennung und Nachrichtenvorhersagen.

Vorteile:

  • Erfordert keine große Verarbeitung, um die Datensätze zu verarbeiten, und ein sehr einfach zu erstellendes Modell. Bietet eine größere Genauigkeit und hilft bei der Lösung von Vorhersageproblemen.
  • Funktioniert gut im Umgang mit fehlenden Werten und erkennt automatisch einen Ausreißer.

Nachteil:

  • Erfordert hohe Rechenkosten und viel Speicher.
  • Benötigt viel mehr Zeit.

5) K-Nächste Nachbarn

Hier werden wir den K-NN-Algorithmus mit überwachtem Lernen für CART diskutieren. Sie verwenden K positive kleine ganze Zahlen; Ein Objekt wird der Klasse basierend auf den Nachbarn zugewiesen, oder wir werden sagen, eine Gruppe zuzuweisen, indem wir beobachten, in welcher Gruppe der Nachbar liegt. Dies wird durch das Entfernungsmaß Euklidische Entfernung und eine rohe Kraft gewählt. Der Wert von K kann unter Verwendung des Abstimmungsprozesses ermittelt werden. KNN zieht es nicht vor, ein Modell zum Trainieren eines neuen Datensatzes und zum Verwenden der Normalisierung zum erneuten Skalieren von Daten zu lernen.

Vorteil: Erzeugt effektive Ergebnisse, wenn die Trainingsdaten sehr groß sind.

Nachteil: Das größte Problem ist, dass eine kleine Variable gut funktioniert. Zweitens die Wahl des K-Faktors während der Klassifizierung.

Fazit

Zusammenfassend haben wir die Möglichkeiten der verschiedenen Klassifizierungsalgorithmen durchgearbeitet, die immer noch als leistungsstarkes Werkzeug für das Feature-Engineering fungieren und eine Bildklassifizierung darstellen, die eine hervorragende Ressource für maschinelles Lernen darstellt. Klassifizierungsalgorithmen sind leistungsfähige Algorithmen, die schwierige Probleme lösen.

Empfohlene Artikel

Dies ist eine Anleitung zu Klassifizierungsalgorithmen beim maschinellen Lernen. Hier diskutieren wir, dass die Klassifizierung sowohl für strukturierte als auch für unstrukturierte Daten durchgeführt werden kann. Sie können auch unsere anderen Artikelvorschläge durchgehen -

  1. Routing-Algorithmen
  2. Clustering-Algorithmus
  3. Data Mining-Prozess
  4. Algorithmen für maschinelles Lernen
  5. Meist verwendete Techniken des Ensemble-Lernens
  6. C ++ Algorithmus | Beispiele für den C ++ - Algorithmus

Kategorie: