Diagramme in R - Diagrammtypen in R & Examples mit Implementierung

Inhaltsverzeichnis:

Anonim

Einführung in Graphen in R

Ein Diagramm ist ein Werkzeug, das die Analyse erheblich beeinflusst. Diagramme in Selten wichtig, da sie dazu beitragen, die Ergebnisse auf interaktive Weise darzustellen. R bietet als statistisches Programmierpaket umfangreiche Möglichkeiten, um eine Vielzahl von Graphen zu generieren.

Einige der Diagramme in R sind in der Basisinstallation verfügbar, andere können jedoch verwendet werden, indem die erforderlichen Pakete installiert werden. Die Besonderheit von Graphen in R besteht darin, dass sie komplexe statistische Befunde durch Visualisierungen erklären. Dies ist im Wesentlichen so, als würde man einen Schritt über die herkömmliche Art der Datenvisualisierung hinausgehen. R bietet daher einen sofort einsatzbereiten Ansatz für die Laufwerksanalyse.

Arten von Graphen in R

In R stehen verschiedene Grafiken zur Verfügung, deren Verwendung ausschließlich vom Kontext abhängt. Die explorative Analyse erfordert jedoch die Verwendung bestimmter Graphen in R, die zur Datenanalyse verwendet werden müssen. Wir werden uns nun einige dieser wichtigen Graphen in R ansehen.

Für die Demonstration verschiedener Diagramme verwenden wir den in der Basisinstallation verfügbaren Datensatz "trees". Weitere Details zum Datensatz können mit? Ermittelt werden. Bäume Befehl in R.

1. Histogramm

Ein Histogramm ist ein grafisches Werkzeug, das mit einer einzelnen Variablen arbeitet. Zahlreiche Variablenwerte werden in Klassen gruppiert, und eine Reihe von Werten, die als Häufigkeit bezeichnet werden, werden berechnet. Diese Berechnung wird dann verwendet, um Frequenzbalken in den jeweiligen Beans zu zeichnen. Die Höhe eines Balkens wird durch die Häufigkeit dargestellt.

In R können wir die Funktion hist () wie unten gezeigt verwenden, um das Histogramm zu generieren. Ein einfaches Histogramm der Baumhöhen ist unten dargestellt.

Code:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Ausgabe:

Um den Frequenztrend zu verstehen, können wir ein Dichtediagramm über dem obigen Histogramm hinzufügen. Dies bietet mehr Einblicke in die Datenverteilung, die Schiefe, die Kurtosis usw. Der folgende Code führt dies aus, und die Ausgabe wird nach dem Code angezeigt.

Code:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Ausgabe:

2. Streudiagramm

Dieser Plot ist ein einfacher Diagrammtyp, aber ein sehr wichtiger, der eine enorme Bedeutung hat. Das Diagramm gibt Aufschluss über die Korrelation zwischen Variablen und ist ein nützliches Hilfsmittel für eine explorative Analyse.

Der folgende Code generiert ein einfaches Streudiagramm. Wir haben eine Trendlinie hinzugefügt, um den Trend zu verstehen, den die Daten darstellen.

Code:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Ausgabe:

Das mit dem folgenden Code erstellte Diagramm zeigt, dass eine gute Korrelation zwischen Baumumfang und Baumvolumen besteht.

Code:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Ausgabe:

Streudiagramm-Matrizen

Mit R können mehrere Variablen gleichzeitig verglichen werden, da Streudiagramm-Matrizen verwendet werden. Das Implementieren der Visualisierung ist recht einfach und kann mit Hilfe der pairs () -Funktion wie unten gezeigt erreicht werden.

Code:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Ausgabe:

Streudiagramm3d

Sie ermöglichen die dreidimensionale Visualisierung, um die Beziehung zwischen mehreren Variablen zu verstehen. Um Streudiagramme in 3D verfügbar zu machen, muss zunächst das Paket scatterplot3d installiert werden. Der folgende Code generiert also ein 3D-Diagramm, das unter dem Code angezeigt wird.

Code:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Ausgabe:

Mit dem folgenden Code können wir Drop-Lines und Farben hinzufügen. Nun können wir bequem zwischen verschiedenen Variablen unterscheiden.

Code:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Ausgabe:

3. Boxplot

Boxplot ist eine Möglichkeit, Daten über Boxen und Whisker zu visualisieren. Zuerst werden die variablen Werte in aufsteigender Reihenfolge sortiert und dann die Daten in Viertel unterteilt.

Das Kästchen in der Grafik enthält die mittleren 50% der Daten, die als IQR bezeichnet werden. Die schwarze Linie in der Box repräsentiert den Median.

Code:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Ausgabe:

Eine Variante des Boxplots mit Kerben ist unten abgebildet.

Code:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Ausgabe:

4. Liniendiagramm

Liniendiagramme sind nützlich, wenn Sie mehrere Variablen vergleichen. Sie helfen uns bei der Beziehung zwischen mehreren Variablen in einem einzigen Diagramm. In der folgenden Abbildung versuchen wir, den Trend der drei Baummerkmale zu verstehen. Wie im folgenden Code gezeigt, wird das Liniendiagramm für den Umfang zunächst mit der Funktion plot () gezeichnet. Dann werden Liniendiagramme für Höhe und Volumen mit der Funktion lines () auf dem gleichen Plot gezeichnet.

Der “ylim” -Parameter in der plot () -Funktion dient dazu, alle drei Liniendiagramme korrekt aufzunehmen. Eine Legende zu haben ist hier wichtig, um zu verstehen, welche Linie welche Variable repräsentiert. In der Legende bedeutet "lty = 1: 1", dass wir für alle Variablen den gleichen Linientyp haben und "cex" die Größe der Punkte darstellt.

Code:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Ausgabe:

5. Punktdiagramm

Dieses Visualisierungstool ist nützlich, wenn Sie mehrere Kategorien mit einer bestimmten Kennzahl vergleichen möchten. In der folgenden Abbildung wurde der Datensatz mtcars verwendet. Die dotchart () -Funktion zeichnet den Hubraum für verschiedene Automodelle wie folgt auf.

Code:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Ausgabe:

Nun sortieren wir den Datensatz nach Verschiebungswerten und zeichnen sie dann mithilfe der dotchart () -Funktion nach verschiedenen Zahnrädern.

Code:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Ausgabe:

Fazit

Analytik im wahrsten Sinne des Wortes wird nur durch Visualisierungen genutzt. R bietet als statistisches Tool umfangreiche Visualisierungsfunktionen. Die zahlreichen Optionen, die mit Diagrammen verbunden sind, machen sie zu etwas Besonderem. Jedes der Diagramme hat eine eigene Anwendung, und das Diagramm sollte vor dem Anwenden auf ein Problem untersucht werden.

Empfohlene Artikel

Dies ist eine Anleitung für Graphen in R. Hier werden die Einführung und Arten von Graphen in R wie Histogramme, Streudiagramme, Boxplots und vieles mehr zusammen mit Beispielen und deren Implementierung erläutert. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. R Datentypen
  2. R-Pakete
  3. Einführung in Matlab
  4. Diagramme gegen Diagramme