Einführung in die Regressionsanalyse
Die Regressionsanalyse ist ein Vorhersagemodellierungsalgorithmus zur Vorhersage des Ergebnisses einer Variablen und zur Identifizierung der Variablen (unabhängige Variablen), die zur Ergebnisvariablen (Zielvariable oder abhängige Variable) beitragen oder von dieser abhängen. In einfachen Worten ist es eine Technik, die Beziehung zwischen den unabhängigen und abhängigen Variablen zu finden, um das Ergebnis zu erzielen. Es ist einfach, das Ergebnis zu verwenden und zu interpretieren. Es gibt viele Arten von Regressionstechniken, die in verschiedenen Sektoren weit verbreitet sind. Einige Beispiele für eine Regression sind die Vorhersage des Gehalts eines Mitarbeiters oder der Einnahmen eines Unternehmens in einem Jahr.
Wie hat die Regressionsanalyse funktioniert?
Es gibt viele Arten von Regressionstechniken, bei denen unterschiedliche Faktoren und Ergebnisse berücksichtigt werden.
- Lineare Regression
- Logistische Regression
- Lasso / Ridge-Regression
- Polynom-Regression
Einige der wichtigen statistischen Regressionstests, die in verschiedenen Sektoren angewendet werden, sind nachstehend aufgeführt:
1. Lineare Regression
Dies wird verwendet, wenn die Ergebnisvariable linear von den unabhängigen Variablen abhängt. Es wird normalerweise verwendet, wenn wir keinen riesigen Datensatz haben. Es ist auch empfindlich gegenüber Ausreißern. Wenn der Datensatz also Ausreißer enthält, sollten Sie diese besser behandeln, bevor Sie die lineare Regression anwenden. Es gibt einfache und mehrfach variable Regressionstechniken. Einfache lineare Regression ist die Analyse, wenn die Ergebnisvariable linear von einer einzelnen unabhängigen Variablen abhängt. Die einfache lineare Regression folgt der folgenden Gleichung einer geraden Linie:
Y=mx+c
Wo,
Y = Ziel-, abhängige oder Kriteriumsvariable
x = Unabhängige oder Prädiktorvariable
m = Steigungs- oder Regressionskoeffizient
c = konstant
Lineare Regression mit mehreren Variablen definiert die Beziehung zwischen der Ergebnisvariablen und mehr als einer unabhängigen Variablen. Es folgt die folgende Gleichung einer geraden Linie, wobei abhängige Variablen die lineare Kombination aller unabhängigen Variablen sind:
Y= m1x1+m2x2+m3x3+…mnan+c
Wo,
Y = Ziel-, abhängige oder Kriteriumsvariable
x1, x2, x3… xn = Unabhängige Variablen oder Prädiktorvariablen
m1, m2, m3… mn = Steigungs- oder Regressionskoeffizienten der jeweiligen Variablen
c = konstant
Die lineare Regression folgt dem Prinzip der Methode des kleinsten Quadrats. Diese Methode gibt an, dass eine Linie der besten Anpassung ausgewählt wird, indem die Summe der quadratischen Fehler minimiert wird. Die Linie der besten Anpassung wird gewählt, wenn die Summe der quadratischen Fehler zwischen den beobachteten Daten und der Linie minimal ist.
Es gibt einige Annahmen, die berücksichtigt werden sollten, bevor eine lineare Regression auf den Datensatz angewendet wird.
- Zwischen unabhängigen und abhängigen Variablen sollte eine lineare Beziehung bestehen.
- Zwischen den unabhängigen Variablen sollte keine oder eine geringe Multikollinearität bestehen. Multikollinearität wird als ein Phänomen definiert, bei dem eine hohe Korrelation zwischen den unabhängigen Variablen besteht. Wir können Multikollinearität behandeln, indem wir eine korrelierte Variable löschen oder zwei Variablen als eine Variable behandeln.
- Homoskedastizität: Dies ist ein Zustand, in dem Fehlerterme in der Regressionsanalyse zufällig über die Linie verteilt werden sollen. Es sollte kein Muster über der Linie liegen, wenn ein bestimmtes Muster identifiziert wurde, da die Daten als heteroskedastisch bezeichnet werden.
- Alle Variablen sollten normalverteilt sein, was wir sehen, wenn wir einen QQ-Plot zeichnen. Wenn die Daten nicht normal verteilt sind, können wir beliebige nichtlineare Transformationsmethoden verwenden, um sie zu behandeln.
Es ist daher immer ratsam, die Annahmen zu testen, während die lineare Regression angewendet wird, um eine gute Genauigkeit und ein korrektes Ergebnis zu erzielen.
2. Logistische Regression
Diese Regressionstechnik wird verwendet, wenn die Ziel- oder Ergebnisvariable kategorialer oder binärer Natur ist. Der Hauptunterschied zwischen linearer und logistischer Regression liegt in der Zielvariablen. Bei der linearen Regression sollte sie kontinuierlich sein, während sie bei der Logistik kategorisch sein sollte. Die Ergebnisvariable sollte nur zwei Klassen enthalten, nicht mehr. Einige der Beispiele sind Spam-Filter in E-Mails (Spam oder nicht), Betrugserkennung (Betrug / Nicht-Betrug) usw. Es funktioniert nach dem Prinzip der Wahrscheinlichkeit. Sie kann durch Einstellen des Schwellenwerts in zwei Kategorien eingeteilt werden.
Zum Beispiel: Wenn es zwei Kategorien A, B gibt und wir den Schwellenwert auf 0, 5 setzen, wird die Wahrscheinlichkeit über 0, 5 als eine Kategorie und unter 0, 5 als eine andere Kategorie betrachtet. Die logistische Regression folgt einer S-förmigen Kurve. Bevor wir das logistische Regressionsmodell erstellen, müssen wir den Datensatz in Training und Testen aufteilen. Da die Zielvariable kategorial oder binär ist, müssen wir sicherstellen, dass das Trainingsset eine korrekte Klassenbalance enthält. Wenn es ein Klassenungleichgewicht gibt, kann dies mit den folgenden Methoden behandelt werden:
- Aufwärtsabtastung: Bei dieser Technik wird die Klasse mit weniger Zeilen abgetastet, um mit der Anzahl der Zeilen der Mehrheitsklasse übereinzustimmen.
- Down-Sampling: Bei dieser Technik wird die Klasse mit mehr Zeilen auf die Anzahl der Zeilen der Minderheitsklasse heruntergesampelt.
Es gibt einige wichtige Punkte, die Sie verstehen müssen, bevor Sie das logistische Regressionsmodell auf die Datensätze anwenden:
- Die Zielvariable sollte binärer Natur sein. Wenn die Zielvariable mehr als 2 Klassen enthält, wird dies als Multinomial Logistic Regression bezeichnet .
- Zwischen den unabhängigen Variablen sollte keine oder nur eine geringe Multikollinearität bestehen.
- Es erfordert eine große Stichprobengröße, um zu arbeiten.
- Zwischen den unabhängigen Variablen und dem Quotenprotokoll sollte eine lineare Beziehung bestehen.
Vorteile der Regression
Die Regressionsanalyse bietet viele Vorteile. Anstatt unser Bauchgefühl zu berücksichtigen und das Ergebnis vorherzusagen, können wir eine Regressionsanalyse verwenden und gültige Punkte für mögliche Ergebnisse anzeigen.
Einige davon sind unten aufgeführt:
- Prognose der Verkäufe und Einnahmen in einem Sektor für kürzere oder längere Zeiträume.
- Vorhersage der Kundenabwanderungsrate einer Branche und Ermittlung geeigneter Maßnahmen zur Reduzierung dieser Abwanderungsraten.
- Den Lagerbestand des Lagers verstehen und vorhersagen.
- Feststellen, ob die Einführung eines neuen Produkts auf dem Markt erfolgreich sein wird oder nicht.
- Um vorherzusagen, ob ein Kunde in Verzug gerät oder nicht.
- Um vorherzusagen, ob ein Kunde ein Produkt kauft oder nicht.
- Betrugs- oder Spamerkennung
Fazit
Es gibt verschiedene Bewertungsmetriken, die nach der Anwendung des Modells berücksichtigt werden. Obwohl es Annahmen gibt, die vor der Anwendung des Modells getestet werden müssen, können wir die Variablen immer mit verschiedenen mathematischen Methoden modifizieren und die Modellleistung steigern.
Empfohlene Artikel
Dies ist eine Anleitung zur Regressionsanalyse. Hier diskutieren wir die Einführung in die Regressionsanalyse, die Funktionsweise der Regressionsanalyse und die Vorteile der Regression. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren.
- Lineare Regressionsanalyse
- Datenanalyse-Tools
- Regressionstest-Tools
- Big Data Analytics
- Regression vs Klassifikation | Wichtigste Unterschiede