Unterschied zwischen Regression und Klassifikation

Lassen Sie uns in diesem Artikel Regression vs. Klassifikation die Hauptunterschiede zwischen Regression und Klassifikation diskutieren. Maschinelles Lernen wird grob in zwei Arten unterteilt: Überwachtes maschinelles Lernen und Unüberwachtes maschinelles Lernen. Beim überwachten maschinellen Lernen haben wir einen bekannten Ausgabewert im Datensatz, und wir trainieren das darauf basierende Modell und verwenden es zur Vorhersage, während beim unbeaufsichtigten maschinellen Lernen kein bekannter Ausgabewertsatz vorliegt. Bevor wir zwischen Klassifikation und Regression unterscheiden, lassen Sie uns verstehen, was diese Terminologie im maschinellen Lernen bedeutet. Regression ist ein Algorithmus für überwachtes maschinelles Lernen, mit dem die Vorhersage der tatsächlichen Zahlenausgaben trainiert werden kann. Die Klassifizierung ist ein Algorithmus im überwachten maschinellen Lernen, der darauf trainiert wird, Kategorien zu identifizieren und vorherzusagen, in welche Kategorie sie für neue Werte fallen.

Head to Head Vergleich zwischen Regression und Classification (Infografik)

Nachfolgend sehen Sie den Top 5-Vergleich zwischen Regression und Klassifikation :

Hauptunterschiede zwischen Regression und Klassifikation

Lassen Sie uns einige wichtige Unterschiede zwischen der Regression und der Klassifikation in den folgenden Punkten diskutieren:

  1. Bei der Klassifizierung geht es darum, eine Bezeichnung oder Kategorie vorherzusagen. Der Klassifizierungsalgorithmus klassifiziert den erforderlichen Datensatz in zwei oder mehr Bezeichnungen. Ein Algorithmus, der zwei Klassen oder Kategorien behandelt, wird als binärer Klassifizierer bezeichnet. Wenn mehr als zwei Klassen vorhanden sind, kann er als Klassifizierungsalgorithmus für mehrere Klassen bezeichnet werden.
  2. Bei der Regression geht es darum, eine optimale Funktion zum Identifizieren der Daten kontinuierlicher reeller Werte und zum Vorhersagen dieser Größe zu finden. Eine Regression mit mehreren Variablen als Eingabe oder Funktionen zum Trainieren des Algorithmus ist als multivariates Regressionsproblem bekannt. Wenn im Regressionsproblem Eingabewerte abhängig oder nach Zeit geordnet sind, spricht man vom Zeitreihen-Prognoseproblem.
  3. Das Klassifizierungsmodell sagt jedoch auch einen kontinuierlichen Wert voraus, der die Wahrscheinlichkeit darstellt, dass das Ereignis auftritt, das zu dieser jeweiligen Ausgabeklasse gehört. Hier repräsentiert die Wahrscheinlichkeit eines Ereignisses die Wahrscheinlichkeit, dass ein bestimmtes Beispiel zu einer bestimmten Klasse gehört. Der vorhergesagte Wahrscheinlichkeitswert kann durch Auswahl der Klassenbezeichnung mit der höchsten Wahrscheinlichkeit in einen Klassenwert umgewandelt werden.
  4. Lassen Sie uns dies anhand eines Beispiels besser verstehen. Nehmen wir an, wir trainieren das Modell, um vorherzusagen, ob eine Person Krebs hat oder nicht, basierend auf einigen Merkmalen. Wenn die Wahrscheinlichkeit, dass eine Person Krebs hat, 0, 8 und die Wahrscheinlichkeit, dass sie keinen Krebs hat, 0, 2 beträgt, können wir die Wahrscheinlichkeit von 0, 8 in eine Klassenbezeichnung mit Krebs umwandeln, da er die höchste Wahrscheinlichkeit hat.
  5. Wie oben in der Klassifizierung erwähnt, berechnen wir die Genauigkeit, um zu sehen, wie gut das Klassifizierungsmodell funktioniert. Lassen Sie uns sehen, wie die Berechnung durchgeführt wird. Die Genauigkeit bei der Klassifizierung kann durch Verwenden des Verhältnisses von korrekten Vorhersagen zu Gesamtvorhersagen multipliziert mit 100 erreicht werden. Wenn 50 Vorhersagen durchgeführt werden und 10 von ihnen korrekt und 40 falsch sind, beträgt die Genauigkeit 20 %.

Genauigkeit = (Anzahl der korrekten Vorhersagen / Gesamtanzahl der Vorhersagen) * (100)

  • Genauigkeit = (10/50) * (100)
  • Genauigkeit = 20%
  1. Wie oben in der Regression erwähnt, wird zur Ermittlung der Leistung des Regressionsmodells am häufigsten der quadratische Mittelwertfehler (RMSE) berechnet. Lassen Sie uns sehen, wie die Berechnung durchgeführt wird.

Der vorhergesagte Wert des Regressionsmodells beträgt 4, 9, während der tatsächliche Wert 5, 3 beträgt.

Der vorhergesagte Wert des Regressionsmodells beträgt 2, 3, während der tatsächliche Wert 2, 1 beträgt.

Der vorhergesagte Wert des Regressionsmodells beträgt 3, 4, während der tatsächliche Wert 2, 9 beträgt.

Nun kann der quadratische Mittelwertfehler unter Verwendung der Formel berechnet werden.

Das Fehlerquadrat ist (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Mittelwert des Fehlerquadrats = 0, 45 / 3 = 0, 15

Root Mean Square Error = Quadratwurzel von 0, 15 = 0, 38

Das ist RMSE = 0, 38. Es gibt viele andere Methoden, um die Effizienz des Modells zu berechnen, aber RMSE wird am häufigsten verwendet, da RMSE die Fehlerbewertung in denselben Einheiten wie der vorhergesagte Wert anbietet.

Beispiele:

Die meisten Data Scientist-Ingenieure finden es schwierig, sich in der Anfangsphase ihrer Karriere zwischen Regression und Klassifikation zu entscheiden. Lassen Sie uns zur Vereinfachung sehen, wie die Klassifizierungsprobleme aussehen und wie die Regressionsprobleme aussehen.

Einstufung

  1. Vorhersage, ob es morgen regnen wird oder nicht.
  2. Eine Person vorherzusagen, sollte das Gute kaufen oder nicht, um Profit zu machen.
  3. Vorhersage, ob eine Person eine Krankheit hat oder nicht.

Wenn Sie für jede Situation hier bemerken, kann es entweder ein Ja oder ein Nein als vorhergesagter Ausgabewert geben.

Regression

  1. Vorhersage des Grundstückspreises.
  2. Vorhersage des Aktienkurses.

Wenn Sie für jede Situation hier bemerken, haben die meisten von ihnen einen numerischen Wert als vorhergesagte Ausgabe.

Vergleichstabelle der Regression gegen Klassifikation

Die folgende Tabelle fasst die Vergleiche zwischen Regression und Klassifikation zusammen :

Parameter Regression

Einstufung

Art der ZuordnungsfunktionIn diesen Algorithmen wird die Zuordnungsfunktion von einem Typ ausgewählt, der die Werte an die kontinuierliche Ausgabe anpassen kann.In diesen Algorithmen wird die Zuordnungsfunktion vom Typ ausgewählt, der die Werte an die vordefinierten Klassen anpassen kann.
Beinhaltet VorhersageFür diese Art von Algorithmen gehören vorhergesagte Daten zur Kategorie der kontinuierlichen Werte.

(Gefällt mir 23, 34, 45, 67, 28)

Für diese Art von Algorithmus gehören die vorhergesagten Daten zur Kategorie der diskreten Werte.

(Wie entweder Ja oder Nein, gehört zu A oder B oder C).

BerechnungsmethodeRoot Mean Square Error wird berechnet, um die beste Anpassung des Datensatzes zu ermitteln.Die Genauigkeit wird berechnet, um die beste Anpassung des Datensatzes zu ermitteln.
Art der vorhergesagten DatenDie Art der vorhergesagten Daten wird sortiert. (Das heißt, die vorhergesagten Werte liegen in einer bestimmten Reihenfolge vor).Die Art der vorhergesagten Daten ist ungeordnet. (Das heißt, die vorhergesagten Werte befinden sich in keiner Reihenfolge).
AlgorithmenUnterstützt Vector Regression und Regression Trees werden auch als Random Forest bezeichnet. Dies sind einige der beliebtesten Beispiele für Regressionsalgorithmen.Naive Bayes, Entscheidungsbäume und K Nearest Neighbors sind einige der beliebtesten Beispiele für Klassifizierungsalgorithmen.

Fazit

Dies sind einige der Hauptunterschiede zwischen Klassifizierung und Regression. In einigen Fällen können die in der Regression vorhergesagten kontinuierlichen Ausgabewerte in Bezeichnungen gruppiert und in Klassifizierungsmodelle geändert werden. Wir müssen also klar verstehen, welche wir basierend auf der Situation auswählen sollen und wie die prognostizierte Ausgabe aussehen soll.

Empfohlene Artikel

Dies ist eine Anleitung zum Hauptunterschied zwischen Regression und Klassifikation. Hier werden auch die Hauptunterschiede zwischen Regression und Klassifizierung mit Infografiken und die Vergleichstabelle erörtert. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Top 7 Arten von Chiffren
  2. Was ist StringBuilder in C # mit Vorteilen
  3. StringBuffer vs StringBuilder | Top 4 Vergleich
  4. Top Unterschiede - Jira vs Github
  5. Was ist eine Regressionsanalyse?
  6. Multivariate Regression
  7. Klassifizierungsalgorithmen
  8. Entscheidungsbaum mit Vorteilen anlegen