Einführung in die lineare Regressionsanalyse

Es ist oft verwirrend, ein Konzept zu lernen, das sogar Teil unseres täglichen Lebens ist. Aber das ist kein Problem, wir können uns helfen und entwickeln, um aus unseren alltäglichen Aktivitäten zu lernen, indem wir Dinge analysieren und keine Angst haben, Fragen zu stellen. Warum der Preis die Nachfrage nach Waren beeinflusst, warum die Änderung des Zinssatzes die Geldmenge beeinflusst. All dies kann durch einen einfachen Ansatz beantwortet werden, der als lineare Regression bekannt ist. Die einzige Komplexität, die man beim Umgang mit linearer Regressionsanalyse empfindet, ist die Identifizierung abhängiger und unabhängiger Variablen.

Wir müssen herausfinden, was sich auf was auswirkt, und die Hälfte des Problems ist gelöst. Wir müssen sehen, ob es der Preis oder die Nachfrage ist, die sich gegenseitig beeinflussen. Sobald wir wissen, welche Variable die unabhängige und welche abhängige Variable ist, können wir unsere Analyse durchführen. Es stehen mehrere Arten von Regressionsanalysen zur Verfügung. Diese Analyse hängt von den Variablen ab, die uns zur Verfügung stehen.

Die 3 Arten der Regressionsanalyse

Diese drei Regressionsanalysen haben in der realen Welt maximale Anwendungsfälle, ansonsten gibt es mehr als 15 Arten von Regressionsanalysen. Arten der Regressionsanalyse, die wir diskutieren werden, sind:

  1. Lineare Regressionsanalyse
  2. Multiple lineare Regressionsanalyse
  3. Logistische Regression

In diesem Artikel konzentrieren wir uns auf die Analyse der einfachen linearen Regression. Diese Analyse hilft uns, die Beziehung zwischen dem unabhängigen Faktor und dem abhängigen Faktor zu identifizieren. In einfacheren Worten, das Regressionsmodell hilft uns herauszufinden, wie sich die Änderungen des unabhängigen Faktors auf den abhängigen Faktor auswirken. Dieses Modell hilft uns auf verschiedene Arten:

  • Es ist ein einfaches und leistungsfähiges statistisches Modell
  • Es wird uns bei der Vorhersage und Prognose helfen
  • Es wird uns helfen, eine bessere Geschäftsentscheidung zu treffen
  • Es wird uns helfen, die Ergebnisse zu analysieren und Fehler zu korrigieren

Die Gleichung der linearen Regression und teilen Sie es in relevante Teile

Y = β1 + β2X + ϵ

  • Wobei β1 in der mathematischen Terminologie als Achsenabschnitt und β2 in der mathematischen Terminologie als Steigung bezeichnet wird. Sie werden auch als Regressionskoeffizienten bezeichnet. ϵ ist der Fehlerterm, es ist der Teil von Y, den das Regressionsmodell nicht erklären kann.
  • Y ist eine abhängige Variable (andere Begriffe, die austauschbar für abhängige Variablen verwendet werden, sind Antwortvariable, Regressor, gemessene Variable, beobachtete Variable, antwortende Variable, erklärte Variable, Ergebnisvariable, experimentelle Variable und / oder Ausgangsvariable).
  • X ist eine unabhängige Variable (Regressoren, gesteuerte Variable, manipulierte Variable, erklärende Variable, Belichtungsvariable und / oder Eingangsvariable).

Problem: Um zu verstehen, was lineare Regressionsanalyse ist, verwenden wir den Datensatz "Cars", der standardmäßig in R-Verzeichnissen enthalten ist. In diesem Datensatz gibt es 50 Beobachtungen (im Wesentlichen Zeilen) und 2 Variablen (Spalten). Die Spaltennamen lauten "Dist" und "Speed". Hier müssen wir die Auswirkung von Geschwindigkeitsänderungen auf Entfernungsvariablen sehen. Um die Struktur der Daten zu sehen, können wir einen Code Str (Datensatz) ausführen. Dieser Code hilft uns, die Struktur des Datensatzes zu verstehen. Diese Funktionen helfen uns, bessere Entscheidungen zu treffen, da wir ein besseres Bild über die Datensatzstruktur haben. Dieser Code hilft uns, den Typ der Datensätze zu identifizieren.

Code:

In ähnlicher Weise können wir zur Überprüfung der Statistikprüfpunkte des Datensatzes die Code-Zusammenfassung (Autos) verwenden. Dieser Code gibt den Mittelwert (Median) des Datensatzes an, den der Forscher verwenden kann, wenn er sich mit dem Problem befasst.

Ausgabe:

Hier sehen wir die statistische Ausgabe jeder Variablen, die wir in unserem Datensatz haben.

Die grafische Darstellung von Datensätzen

Arten der grafischen Darstellung, die hier behandelt werden, sind und warum:

  • Streudiagramm: Mit Hilfe des Diagramms können wir sehen, in welche Richtung sich unser lineares Regressionsmodell bewegt, ob es aussagekräftige Beweise für unser Modell gibt oder nicht.
  • Box Plot: Hilft uns, Ausreißer zu finden.
  • Dichtediagramm: Helfen Sie uns, die Verteilung der unabhängigen Variablen zu verstehen. In unserem Fall ist die unabhängige Variable "Geschwindigkeit".

Vorteile der grafischen Darstellung

Hierbei ergeben sich folgende Vorteile:

  • Einfach zu verstehen
  • Hilft uns, schnelle Entscheidungen zu treffen
  • Vergleichende Analyse
  • Weniger Aufwand und Zeit

1. Streudiagramm: Es hilft, alle Beziehungen zwischen der unabhängigen Variablen und der abhängigen Variablen zu visualisieren.

Code:

Ausgabe:

Wir können aus dem Diagramm eine linear ansteigende Beziehung zwischen der abhängigen Variablen (Abstand) und der unabhängigen Variablen (Geschwindigkeit) erkennen.

2. Box-Plot: Mit dem Box-Plot können wir die Ausreißer in den Datensätzen identifizieren. Vorteile der Verwendung eines Boxplots sind:

  • Grafische Anzeige von Position und Verteilung der Variablen.
  • Es hilft uns, die Schiefe und Symmetrie der Daten zu verstehen.

Code:

Ausgabe:

3. Dichtediagramm (um die Normalität der Verteilung zu überprüfen)

Code:

Ausgabe:

Korrelationsanalyse

Diese Analyse hilft uns, die Beziehung zwischen den Variablen zu finden. Es gibt hauptsächlich sechs Arten von Korrelationsanalysen.

  1. Positive Korrelation (0, 01 bis 0, 99)
  2. Negative Korrelation (-0, 99 bis -0, 01)
  3. Keine Korrelation
  4. Perfekte Übereinstimmung
  5. Starke Korrelation (ein Wert näher an ± 0, 99)
  6. Schwache Korrelation (ein Wert näher an 0)

Mithilfe des Streudiagramms können wir ermitteln, welche Arten von Korrelationsdatensätzen enthalten sind, und der Code zum Auffinden der Korrelation lautet

Ausgabe:

Hier besteht eine starke positive Korrelation zwischen Geschwindigkeit und Entfernung, was bedeutet, dass sie in direkter Beziehung zueinander stehen.

Lineares Regressionsmodell

Dies ist die Kernkomponente der Analyse. Früher haben wir nur versucht, zu testen, ob das vorhandene Dataset logisch genug ist, um eine solche Analyse durchzuführen, oder nicht. Die von uns geplante Funktion ist lm (). Diese Funktion enthält zwei Elemente: Formel und Daten. Bevor wir die Variable zuweisen, die abhängig oder unabhängig ist, müssen wir uns dessen sehr sicher sein, da unsere gesamte Formel davon abhängt.

Die Formel sieht so aus,

Lineare Regression <- lm (Abhängige Variable ~ Unabhängige Variable, Daten = Date.Frame)

Code:

Ausgabe:

Wie wir uns aus dem obigen Abschnitt des Artikels erinnern können, lautet die Gleichung der linearen Regression:

Y = β1 + β2X + ϵ

Nun werden wir die Informationen, die wir aus dem obigen Code erhalten haben, in diese Gleichung einpassen.

dist = −17.579 + 3.932 ∗ Geschwindigkeit

Es reicht nicht aus, nur die Gleichung der linearen Regression zu finden. Wir müssen auch deren statistische Signifikanz überprüfen. Dazu müssen wir unserem linearen Regressionsmodell einen Code "Summary" übergeben.

Code:

Ausgabe:

Es gibt mehrere Möglichkeiten, die statistische Signifikanz eines Modells zu überprüfen. Hier verwenden wir die P-Wert-Methode. Wir können ein Modell als statistisch passend betrachten, wenn der P-Wert unter dem festgelegten statistisch signifikanten Wert liegt, der idealerweise 0, 05 beträgt. Wir können in unserer Übersichtstabelle (linear_regression) sehen, dass der P-Wert unter 0, 05 liegt, sodass wir daraus schließen können, dass unser Modell statistisch signifikant ist. Sobald wir uns über unser Modell sicher sind, können wir unseren Datensatz verwenden, um Dinge vorherzusagen.

Empfohlene Artikel

Dies ist eine Anleitung zur linearen Regressionsanalyse. Hier diskutieren wir die drei Arten der linearen Regressionsanalyse, die grafische Darstellung von Datensätzen mit Vorteilen und lineare Regressionsmodelle. Sie können auch unsere anderen verwandten Artikel durchgehen, um mehr zu erfahren.

  1. Regressionsformel
  2. Regressionstests
  3. Lineare Regression in R
  4. Arten von Datenanalysetechniken
  5. Was ist eine Regressionsanalyse?
  6. Die wichtigsten Unterschiede zwischen Regression und Klassifikation
  7. Top 6 Unterschiede der linearen Regression gegenüber der logistischen Regression

Kategorie: