Einführung in Datenrahmen in R
Ein Datenrahmen ist eine 2D (zweidimensionale) Array-ähnliche Struktur, in der verschiedene Datentypen wie Zeichen, Zahlen usw. akzeptiert werden. Der Datenrahmen ist eine Teilmenge einer Liste, in der jede Komponente gleich lang ist. Grundsätzlich ist der Datenrahmen eine Tabelle, in der jede Spalte Werte einer Variablen enthält und jede Zeile einen Satz von Werten aus jeder Spalte enthält.
Es gibt einige Eigenschaften des Datenrahmens.
- Der Spaltenname ist erforderlich
- Zeilennamen sollten eindeutig sein
- Die Anzahl der Elemente in jeder Spalte sollte gleich sein
Schritte zum Erstellen von Datenrahmen in R
Beginnen wir mit der Erstellung eines Datenrahmens, der im Folgenden erläutert wird:
Schritt 1: Erstellen Sie einen Datenrahmen einer Klasse in einer Schule.
Code:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Wenn wir diesen Code ausführen, erhalten wir einen Datenrahmen wie diesen.
Ausgabe:
Hier in unserem Beispiel ist der Datenrahmen sehr klein, aber im wirklichen Leben haben wir viele Daten, während wir uns mit dem Problem befassen. Um die Struktur der Daten zu verstehen, übergeben wir die Funktion Str ().
Schritt 2: Wir fügen die folgende Zeile in unseren Code ein.
Code:
Str(tenthclass)
Wenn wir den gesamten Code ausführen, werden wir ausgegeben.
Ausgabe:
Die obige Ausgabe bedeutet, dass wir 5 Beobachtungen von 3 Variablen haben. Anschließend wird der Datentyp jeder Variablen erläutert. Wie in unserem Beispiel ist die Rollennummer eine Ganzzahl, der Name ist ein Zeichen und die Markierungen sind nummeriert.
Sobald wir die Struktur der Daten verstanden haben, übergeben wir den folgenden Code, um die Daten statistischer zu verstehen.
Schritt 3: Jetzt verwenden wir eine summary () Funktion
Code:
summary(tenthclass)
Ausgabe:
Die Zusammenfassung dient zum besseren Verständnis unserer Daten. Es wird uns sagen, Median, Quartil, Max und Min zu bedeuten. Diese Dinge werden uns helfen, eine bessere Entscheidung zu treffen.
Wie extrahiere ich Daten aus Datenrahmen in R?
Hier werden wir den obigen Fall fortsetzen. Nehmen wir an, wir möchten den Namen des Schülers in der zehnten Klasse kennen, nur den Namen. Also, wie werden wir extrahieren?
Unser Datenrahmen sieht so aus.
roll_number Name Marks
1 1 Johannes 77
2 2 Sam 87
3 3 Casey 45
4 4 Ronald 68
5 5 Mathew 95
Um den Namen nur als Ausgabe zu erhalten, geben wir den folgenden Code weiter.
Code:
onlyname = tenthclass$Name
print(onlyname)
Ausgabe:
Wenn wir hier den Code brechen, setzen wir einfach das Dollarzeichen zwischen den Namen unseres Datenrahmens und den Namen der Variablen, die wir als Ausgabe verwenden möchten.
Stellen Sie sich nun eine Situation vor, der Lehrer möchte alles über Rolle 2 wissen, wie er heißt und wie viel er erzielt hat.
Hier brauchen wir alles über die Rolle Nr. 2, damit wir den unten angegebenen Code weitergeben können.
Code:
result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)
Ausgabe:
Erweitern Sie in Datenrahmen
Der Datenrahmen kann durch Hinzufügen oder Löschen von Spalten und Zeilen vergrößert oder verkleinert werden.
1. Zeile hinzufügen
Wir haben zwei Datenrahmen. Ein Datenrahmen gehört zum zehnten Abschnitt der Klasse A und ein anderer Datenrahmen gehört zum zehnten Abschnitt der Klasse B. Jetzt verschmelzen diese verschiedenen Abschnitte zu einer einzigen Klasse.
Beispiel # 1: Klasse 10 A
Code:
tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)
Ausgabe:
Beispiel # 2: Klasse 10 B
Code:
tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)
Ausgabe:
Beispiel # 3: Funktion rbind ()
Jetzt müssen wir diese beiden Klassen zu einer einzigen Klasse zusammenführen. Wir werden hier die Funktion rbind () verwenden. Die einzige Einschränkung beim Hinzufügen einer neuen Zeile besteht darin, dass die neuen Zeilen in derselben Struktur wie der vorhandene Datenrahmen eingefügt werden müssen.
Code:
new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)
Ausgabe:
2. Spalte hinzufügen
Betrachten Sie nun einen Fall, in dem wir die Blutgruppendetails jedes Schülers in Klasse 10 hinzufügen müssen. Wir fügen eine neue Spalte hinzu und benennen sie als „Blutgruppe“.
Unser Datenrahmen sieht so aus.
Code:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Ausgabe:
Code:
tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)
Ausgabe:
Zeile und Spalte aus Datenrahmen löschen
Um Zeilen und Spalten aus dem Datenrahmen zu löschen, verwenden wir die folgende Code-Implementierung.
1. Spalte löschen
Code:
print(tenthclass)
Ausgabe:
Wenn wir in diesem Datenrahmen die Blutgruppenvariable (Spalte ganz rechts) löschen müssen, übergeben wir den folgenden Code.
Code:
tenthclass$Blood_group = NULL
print(tenthclass)
Ausgabe:
Unter Umgehung des NULL-Befehls können wir die Variable direkt aus unserem Datenrahmen entfernen.
2. Zeile löschen
Code:
print(tenthclass)
Ausgabe:
Stellen Sie sich nun eine Situation vor, in der wir keine Spuren von John benötigen, also müssen wir die oberste Reihe entfernen.
Code:
tenthclass = tenthclass(-1, ) print(tenthclass)
Ausgabe:
Daten im Datenrahmen aktualisieren
Code:
print(tenthclass)
Ausgabe:
Nehmen wir an, Sam hat 98 Punkte erzielt, aber laut unseren Datenrahmen sind es 87. Also können wir den folgenden Code übergeben, um ihn zu korrigieren.
Code:
tenthclass$Marks(2) = 98
print(tenthclass)
Ausgabe:
Fazit
Datenrahmen sind eine sehr häufige Form der Problemstellung. Es ist eine Liste der Variablen mit der gleichen Anzahl von Zeilen mit eindeutigen Zeilen-IDs. In diesem Artikel erfahren wir, wie wir eine Zeile, eine Spalte, eine Zeile oder eine Spalte des Datenrahmens hinzufügen und löschen können. Außerdem erfahren wir, wie wir die Daten im Datenrahmen aktualisieren können.
Empfohlene Artikel
Dies ist eine Anleitung zu Datenrahmen in R. Hier werden die verschiedenen Schritte zum Erstellen von Datenrahmen und zum Extrahieren von Daten aus Datenrahmen in R erläutert. Weitere Informationen finden Sie auch in den folgenden Artikeln.
- Top 5 Datentypen in R
- Liste nützlicher R-Pakete
- R CSV-Dateien
- R Programmfunktionen - Bedeutung
- Faktor R mit Vorteilen