Einführung in Spark DataFrame

Ein Spark-Datenrahmen kann als verteilte Datensammlung bezeichnet werden, die in benannten Spalten organisiert ist und auch zur Bereitstellung von Vorgängen wie Filtern, Berechnen von Aggregationen und Gruppieren verwendet wird. Außerdem kann er mit Spark-SQL verwendet werden. Datenrahmen können mithilfe strukturierter Datendateien zusammen mit vorhandenen RDDs, externen Datenbanken und Hive-Tabellen erstellt werden. Grundsätzlich wird es als Abstraktionsschicht bezeichnet und bezeichnet, die auf RDD aufbaut, und auf die auch die Dataset-API folgt, die in späteren Versionen von Spark (2.0 +) eingeführt wurde. Darüber hinaus wurden die Datensätze nicht in Pyspark, sondern nur in Scala mit Spark eingeführt, was bei Dataframes nicht der Fall war. Datenrahmen, die im Volksmund als DFs bezeichnet werden, sind logische Spaltenformate, die die Arbeit mit RDDs einfacher und bequemer machen und dieselben Funktionen wie RDDs verwenden. Wenn Sie mehr auf konzeptioneller Ebene sprechen, entspricht dies den relationalen Tabellen zusammen mit guten Optimierungsmerkmalen und -techniken.

Wie erstelle ich einen DataFrame?

Ein Datenrahmen wird im Allgemeinen mit einer der genannten Methoden erstellt. Es kann mithilfe von Hive-Tabellen, externen Datenbanken, strukturierten Datendateien oder sogar bei vorhandenen RDDs erstellt werden. Auf diese Weise können diese benannten Spalten, die als Dataframes bezeichnet werden und für die Verarbeitung in Apache Spark verwendet werden, erstellt werden. Mithilfe von SQLContext oder SparkSession können Anwendungen zum Erstellen von Datenrahmen verwendet werden.

Spark DataFrames-Vorgänge

In Spark ist ein Datenrahmen die Verteilung und Sammlung einer organisierten Form von Daten in benannten Spalten, die einer relationalen Datenbank oder einem Schema oder einem Datenrahmen in einer Sprache wie R oder Python, jedoch mit einem höheren Optimierungsgrad, entspricht verwendet werden. Es wird verwendet, um eine bestimmte Domänensprache bereitzustellen, die für die Manipulation strukturierter Daten verwendet werden kann.

Im Folgenden sind einige grundlegende Vorgänge der strukturierten Datenverarbeitung unter Verwendung von Datenrahmen aufgeführt.

1. Lesen eines Dokuments vom Typ: JSON: Wir würden den Befehl sqlContext.read.json verwenden.

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:
val dfs= sqlContext.read.json(“student.json”)

Ausgabe: In diesem Fall werden die Feldnamen automatisch aus der Datei student.json übernommen.

2. Anzeigen von Daten: Um die Daten in den Spark-Datenrahmen anzuzeigen, müssen Sie den folgenden Befehl verwenden:
dfs.show ()

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:
val dfs= sqlContext.read.json(“student.json”)
dfs.show()

Ausgabe: Die Studentendaten werden Ihnen in tabellarischer Form zur Verfügung gestellt.

3. Verwenden der printSchema-Methode: Wenn Sie die Struktur bzw. das Schema des Datenrahmens anzeigen möchten, verwenden Sie den folgenden Befehl: dfs.printSchema ()

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:

val dfs= sqlContext.read.json(“student.json”)
dfs. printSchema ()

Ausgabe: Die Struktur oder das Schema wird Ihnen angezeigt

4. Verwenden Sie die Auswahlmethode: Um die Auswahlmethode zu verwenden, wird der folgende Befehl verwendet, um die Namen und Spalten aus der Liste der Datenrahmen abzurufen.
dfs.select ("Spaltenname"). show ()

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:
val dfs= sqlContext.read.json(“student.json”)
dfs.select(“name”).show()

Ausgabe: Die Werte der Namensspalte sind sichtbar.

5. Verwenden des Altersfilters: Mit dem folgenden Befehl können Sie die Anzahl der Schüler ermitteln, die älter als 23 Jahre sind.
dfs.filter (dfs ("Spaltenname")> Wert) .show ()

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:
val dfs= sqlContext.read.json(“student.json”)
dfs.filter(dfs(“age”)>23).show()

Ausgabe: Das gefilterte Alter für mehr als 23 wird in den Ergebnissen angezeigt.

6. Verwendung der groupBy-Methode: Die folgende Methode kann verwendet werden, um die Anzahl der gleichaltrigen Schüler zu zählen.
dfs.groupBy ("Spaltenname"). count (). show ()

Beispiel: Nehmen wir an, unser Dateiname ist student.json, dann sieht unser Code folgendermaßen aus:
val dfs= sqlContext.read.json(“student.json”)
dfs.groupBy(“age”).count().show()

7. Verwenden der SQL-Funktion für eine SparkSession, mit der die Anwendung SQL-Typabfragen programmgesteuert ausführen und das Ergebnis in Form eines Datenrahmens zurückgeben kann.
spark.sql (Abfrage)

Beispiel: Angenommen, wir müssen den SQL-Datenrahmen als temporäre Ansicht registrieren, dann:
df.createOrReplaceTempView(“student”)
sqlDF=spark.sql(“select * from student”)
sqlDF.show()

Ausgabe: Eine temporäre Ansicht wird mit dem Namen des Schülers erstellt und eine spark.sql wird darauf angewendet, um sie in einen Datenrahmen zu konvertieren.

8. Verwenden der SQL-Funktion in einer Spark-Sitzung für die globale temporäre Ansicht: Damit kann die Anwendung SQL-Typabfragen programmgesteuert ausführen und gibt das Ergebnis in Form eines Datenrahmens zurück.
spark.sql (Abfrage)

Beispiel: Angenommen, wir müssen den SQL-Datenrahmen als temporäre Ansicht registrieren, dann:
df.createGlobalTempView(“student”)
park.sql(“select * from global_temp.student”).show()
spark.newSession().sql(“Select * from global_temp.student”).show()

Ausgabe: Eine temporäre Ansicht wird mit dem Namen des Schülers erstellt und eine spark.sql wird darauf angewendet, um sie in einen Datenrahmen zu konvertieren.

Vorteile von Spark DataFrame

  1. Der Datenrahmen ist die verteilte Sammlung der Daten, und daher sind die Daten in benannten Spalten organisiert.
  2. Sie sind der Tabelle bei relationalen Datenbanken mehr oder weniger ähnlich und verfügen über umfangreiche Optimierungsmöglichkeiten.
  3. Datenrahmen werden verwendet, um die in SQL geschriebenen Abfragen und auch die Datenrahmen-API zu aktivieren
  4. Es können sowohl strukturierte als auch unstrukturierte Daten verarbeitet werden.
  5. Die Verwendung eines Katalysatoroptimierers macht die Optimierung einfach und effektiv.
  6. Die Bibliotheken sind in vielen Sprachen wie Python, Scala, Java und R verfügbar.
  7. Dies wird verwendet, um eine starke Kompatibilität mit Hive zu gewährleisten und um unveränderte Hive-Abfragen für das bereits vorhandene Hive-Warehouse auszuführen.
  8. Es kann sehr gut von ein paar Kilobyte auf dem persönlichen System bis zu vielen Petabyte auf den großen Clustern skaliert werden.
  9. Es wird verwendet, um eine einfache Integration mit anderen Big-Data-Technologien und -Frameworks zu ermöglichen.
  10. Die Abstraktion, die sie für RDDs bereitstellen, ist effizient und beschleunigt die Verarbeitung.

Fazit - Spark DataFrame

In diesem Beitrag haben Sie eine sehr wichtige Funktion von Apache Spark kennengelernt, nämlich die Datenrahmen und deren Verwendung in den heute ausgeführten Anwendungen sowie die Vorgänge und Vorteile. Ich hoffe dir hat unser Artikel gefallen. Bleiben Sie dran für mehr wie diese.

Empfohlene Artikel

Dies war ein Leitfaden für Spark DataFrame. Hier besprechen wir, wie ein DataFrame erstellt wird. seine Vorteile und verschiedenen Operationen von DataFrames zusammen mit dem entsprechenden Beispielcode. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Spark-Streaming
  2. So installieren Sie Spark
  3. Karriere in Spark
  4. Fragen in Vorstellungsgesprächen bei Spark
  5. Datenrahmen in R
  6. 7 verschiedene Arten von Joins in Spark SQL (Beispiele)
  7. PySpark SQL | Module und Methoden von PySpark SQL
  8. Spark Components | Übersicht der Komponenten von Spark

Kategorie: