Wie installiere ich Spark?
Spark ist ein Open Source-Framework zum Ausführen von Analytics-Anwendungen. Es handelt sich um eine Datenverarbeitungs-Engine, die bei der herstellerunabhängigen Apache Software Foundation gehostet wird, um große Datenmengen oder Big Data zu verarbeiten. Es handelt sich um ein Allzweck-Cluster-Computersystem, das APIs auf hoher Ebene in Scala, Python, Java und R bereitstellt. Es wurde entwickelt, um die Einschränkungen des MapReduce-Paradigmas von Hadoop zu überwinden. Datenwissenschaftler glauben, dass Spark 100-mal schneller ausgeführt wird als MapReduce, da Daten im Speicher zwischengespeichert werden können, während MapReduce mehr durch Lesen und Schreiben auf Datenträgern funktioniert. Es führt In-Memory-Verarbeitung durch, wodurch es leistungsfähiger und schneller wird.
Spark hat kein eigenes Dateisystem. Es verarbeitet Daten aus verschiedenen Datenquellen wie dem Hadoop Distributed File System (HDFS), dem S3-System von Amazon, Apache Cassandra, MongoDB, Alluxio und Apache Hive. Es kann auf Hadoop YARN (noch ein weiterer Resource Negotiator), auf Mesos, auf EC2, auf Kubernetes oder im Standalone-Cluster-Modus ausgeführt werden. Es verwendet RDDs (Resilient Distributed Dataset), um Workloads an einzelne Knoten zu delegieren, die iterative Anwendungen unterstützen. Dank RDD ist die Programmierung im Vergleich zu Hadoop einfach.
Spark besteht aus verschiedenen Komponenten, die als Spark-Ökosystemkomponenten bezeichnet werden.
- Spark Core: Dies ist die Grundlage der Spark-Anwendung, von der andere Komponenten direkt abhängig sind. Es bietet eine Plattform für eine Vielzahl von Anwendungen wie Scheduling, Distributed Task Dispatching, Speicherverarbeitung und Datenreferenzierung.
- Spark-Streaming: Dies ist die Komponente, die Live-Streaming-Daten verarbeitet, um Echtzeitanalysen bereitzustellen. Die Live-Daten werden in diskrete Einheiten, sogenannte Batches, aufgenommen, die auf Spark Core ausgeführt werden.
- Spark-SQL: Dies ist die Komponente, die auf dem Spark-Core zum Ausführen von SQL-Abfragen für strukturierte oder halbstrukturierte Daten arbeitet. Mit Data Frame können Sie mit Spark SQL interagieren.
- GraphX: Es ist die Graph-Berechnungs-Engine oder das Graph-Framework, das die Verarbeitung von Graph-Daten ermöglicht. Es bietet verschiedene Grafikalgorithmen, die unter Spark ausgeführt werden können.
- MLlib: Es enthält Algorithmen für maschinelles Lernen, die ein Framework für maschinelles Lernen in einer speicherbasierten verteilten Umgebung bereitstellen. Durch die speicherinterne Datenverarbeitung werden iterative Algorithmen effizient ausgeführt.
- SparkR: Spark bietet ein R-Paket zum Ausführen oder Analysieren von Datensätzen mit der R-Shell.
Es gibt drei Möglichkeiten, spark auf Ihren Systemen zu installieren oder bereitzustellen:
- Standalone-Modus in Apache Spark
- Hadoop YARN / Mesos
- SIMR (Spark in MapReduce)
Sehen wir uns die Bereitstellung im Standalone-Modus an.
Spark Standalone-Bereitstellungsmodus:
Schritt 1: Aktualisieren Sie den Paketindex
Dies ist erforderlich, um alle vorhandenen Pakete auf Ihrem Computer zu aktualisieren.
Verwenden Sie den Befehl : $ sudo apt-get update
Schritt 2: Java Development Kit (JDK) installieren
Dadurch wird JDK auf Ihrem Computer installiert und Sie können Java-Anwendungen ausführen.
Schritt 3: Überprüfen Sie, ob Java ordnungsgemäß installiert wurde
Java ist eine Voraussetzung für die Verwendung oder Ausführung von Apache Spark-Anwendungen.
Verwenden Sie den Befehl : $ java –version
Dieser Screenshot zeigt die Java-Version und stellt sicher, dass Java auf dem Computer vorhanden ist.
Schritt 4: Installieren Sie Scala auf Ihrem Computer
Da Spark in Scala geschrieben ist, muss Scale installiert sein, damit Spark auf Ihrem Computer ausgeführt werden kann.
Befehl verwenden: $ sudo apt-get install scala
Schritt 5: Überprüfen Sie, ob Scala richtig installiert ist
Dadurch wird die erfolgreiche Installation der Waage auf Ihrem System sichergestellt.
Verwenden Sie den Befehl : $ scala –version
Schritt 6: Laden Sie Apache Spark herunter
Laden Sie Apache Spark gemäß Ihrer Hadoop-Version von https://spark.apache.org/downloads.html herunter
Wenn Sie auf den obigen Link klicken, wird ein Fenster angezeigt.
Schritt 7: Wählen Sie die entsprechende Version für Ihre Hadoop-Version aus und klicken Sie auf den markierten Link.
Ein weiteres Fenster würde erscheinen.
Schritt 8: Klicken Sie auf den markierten Link und Apache Spark wird in Ihr System heruntergeladen.
Überprüfen Sie, ob die Datei .tar.gz im Download-Ordner verfügbar ist.
Schritt 9: Installieren Sie Apache Spark
Zur Installation von Spark muss die TAR-Datei extrahiert werden.
Verwenden Sie den Befehl: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Sie müssen die im Befehl angegebene Version entsprechend Ihrer heruntergeladenen Version ändern. In dieser Version haben wir spark-2.4.0-bin-hadoop2.7 heruntergeladen.
Schritt 10: Richten Sie die Umgebungsvariable für Apache Spark ein
Verwenden Sie den Befehl: $ source ~ / .bashrc
Zeile hinzufügen : export PATH = $ PATH: / usr / local / spark / bin
Schritt 11: Überprüfen Sie die Installation von Apache Spark
Befehl verwenden : $ spark-shell
Wenn die Installation erfolgreich war, wird die folgende Ausgabe erstellt.
Dies bedeutet, dass Apache Spark erfolgreich auf Ihrem Computer installiert wurde und Apache Spark in Scala gestartet wird.
Bereitstellung von Spark auf Hadoop YARN:
Es gibt zwei Modi, um Apache Spark auf Hadoop YARN bereitzustellen.
- Cluster-Modus: In diesem Modus verwaltet YARN im Cluster den Spark-Treiber, der in einem Anwendungsmasterprozess ausgeführt wird. Nach dem Initiieren der Anwendung kann der Client gehen.
- Client-Modus: In diesem Modus werden die Ressourcen vom Anwendungsmaster von YARN angefordert und der Spark-Treiber wird im Client-Prozess ausgeführt.
Verwenden Sie den folgenden Befehl, um eine Spark-Anwendung im Clustermodus bereitzustellen:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Mit dem obigen Befehl wird ein YARN-Client-Programm gestartet, mit dem der Standardanwendungsmaster gestartet wird.
Verwenden Sie den folgenden Befehl, um eine Spark-Anwendung im Clientmodus bereitzustellen:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Sie können die Spark-Shell im Client-Modus mit dem folgenden Befehl ausführen:
$ spark-shell –master yarn –deploy-mode client
Tipps und Tricks zur Verwendung von Spark Install:
- Stellen Sie sicher, dass Java auf Ihrem Computer installiert ist, bevor Sie spark installieren.
- Wenn Sie die Sprache scala verwenden, stellen Sie sicher, dass scale bereits installiert ist, bevor Sie Apache Spark verwenden.
- Sie können Python auch anstelle von Scala zum Programmieren in Spark verwenden, es muss jedoch wie Scala vorinstalliert sein.
- Sie können Apache Spark auch unter Windows ausführen. Es wird jedoch empfohlen, eine virtuelle Maschine zu erstellen und Ubuntu mit Oracle Virtual Box oder VMWare Player zu installieren .
- Spark kann ohne Hadoop (dh Standalone-Modus) ausgeführt werden. Wenn jedoch ein Setup mit mehreren Knoten erforderlich ist, werden Ressourcenmanager wie YARN oder Mesos benötigt.
- Bei Verwendung von YARN muss Spark nicht auf allen drei Knoten installiert werden. Sie müssen Apache Spark nur auf einem Knoten installieren.
- Wenn Sie YARN verwenden und sich im selben lokalen Netzwerk wie der Cluster befinden, können Sie den Client-Modus verwenden. Wenn Sie jedoch weit entfernt sind, können Sie den Cluster-Modus verwenden.
Empfohlene Artikel - Spark Install
Dies ist eine Anleitung zur Installation von Spark. Hier haben wir gesehen, wie Apache Spark im Standalone-Modus und zusätzlich zum Ressourcenmanager YARN bereitgestellt wird. Außerdem werden einige Tipps und Tricks für eine reibungslose Installation von Spark aufgeführt. Sie können auch den folgenden Artikel lesen, um mehr zu erfahren -
- So verwenden Sie Spark-Befehle
- Eine Karriere in Spark - Sie müssen es versuchen
- Unterschiede zwischen Splunk und Spark
- Fragen und Antworten zum Spark-Interview
- Vorteile von Spark Streaming
- Arten von Joins in Spark SQL (Beispiele)