Installieren Sie Spark - Komplette Anleitung zur Installation von Spark

Wie installiere ich Spark?

Spark ist ein Open Source-Framework zum Ausführen von Analytics-Anwendungen. Es handelt sich um eine Datenverarbeitungs-Engine, die bei der herstellerunabhängigen Apache Software Foundation gehostet wird, um große Datenmengen oder Big Data zu verarbeiten. Es handelt sich um ein Allzweck-Cluster-Computersystem, das APIs auf hoher Ebene in Scala, Python, Java und R bereitstellt. Es wurde entwickelt, um die Einschränkungen des MapReduce-Paradigmas von Hadoop zu überwinden. Datenwissenschaftler glauben, dass Spark 100-mal schneller ausgeführt wird als MapReduce, da Daten im Speicher zwischengespeichert werden können, während MapReduce mehr durch Lesen und Schreiben auf Datenträgern funktioniert. Es führt In-Memory-Verarbeitung durch, wodurch es leistungsfähiger und schneller wird.

Spark hat kein eigenes Dateisystem. Es verarbeitet Daten aus verschiedenen Datenquellen wie dem Hadoop Distributed File System (HDFS), dem S3-System von Amazon, Apache Cassandra, MongoDB, Alluxio und Apache Hive. Es kann auf Hadoop YARN (noch ein weiterer Resource Negotiator), auf Mesos, auf EC2, auf Kubernetes oder im Standalone-Cluster-Modus ausgeführt werden. Es verwendet RDDs (Resilient Distributed Dataset), um Workloads an einzelne Knoten zu delegieren, die iterative Anwendungen unterstützen. Dank RDD ist die Programmierung im Vergleich zu Hadoop einfach.

Spark besteht aus verschiedenen Komponenten, die als Spark-Ökosystemkomponenten bezeichnet werden.

Spark Core: Dies ist die Grundlage der Spark-Anwendung, von der andere Komponenten direkt abhängig sind. Es bietet eine Plattform für eine Vielzahl von Anwendungen wie Scheduling, Distributed Task Dispatching, Speicherverarbeitung und Datenreferenzierung.
Spark-Streaming: Dies ist die Komponente, die Live-Streaming-Daten verarbeitet, um Echtzeitanalysen bereitzustellen. Die Live-Daten werden in diskrete Einheiten, sogenannte Batches, aufgenommen, die auf Spark Core ausgeführt werden.
Spark-SQL: Dies ist die Komponente, die auf dem Spark-Core zum Ausführen von SQL-Abfragen für strukturierte oder halbstrukturierte Daten arbeitet. Mit Data Frame können Sie mit Spark SQL interagieren.
GraphX: Es ist die Graph-Berechnungs-Engine oder das Graph-Framework, das die Verarbeitung von Graph-Daten ermöglicht. Es bietet verschiedene Grafikalgorithmen, die unter Spark ausgeführt werden können.
MLlib: Es enthält Algorithmen für maschinelles Lernen, die ein Framework für maschinelles Lernen in einer speicherbasierten verteilten Umgebung bereitstellen. Durch die speicherinterne Datenverarbeitung werden iterative Algorithmen effizient ausgeführt.
SparkR: Spark bietet ein R-Paket zum Ausführen oder Analysieren von Datensätzen mit der R-Shell.

Es gibt drei Möglichkeiten, spark auf Ihren Systemen zu installieren oder bereitzustellen:

Standalone-Modus in Apache Spark
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

Sehen wir uns die Bereitstellung im Standalone-Modus an.

Spark Standalone-Bereitstellungsmodus:

Schritt 1: Aktualisieren Sie den Paketindex

Dies ist erforderlich, um alle vorhandenen Pakete auf Ihrem Computer zu aktualisieren.

Verwenden Sie den Befehl : $ sudo apt-get update

Schritt 2: Java Development Kit (JDK) installieren

Dadurch wird JDK auf Ihrem Computer installiert und Sie können Java-Anwendungen ausführen.

Schritt 3: Überprüfen Sie, ob Java ordnungsgemäß installiert wurde

Java ist eine Voraussetzung für die Verwendung oder Ausführung von Apache Spark-Anwendungen.

Verwenden Sie den Befehl : $ java –version

Dieser Screenshot zeigt die Java-Version und stellt sicher, dass Java auf dem Computer vorhanden ist.

Schritt 4: Installieren Sie Scala auf Ihrem Computer

Da Spark in Scala geschrieben ist, muss Scale installiert sein, damit Spark auf Ihrem Computer ausgeführt werden kann.

Befehl verwenden: $ sudo apt-get install scala

Schritt 5: Überprüfen Sie, ob Scala richtig installiert ist

Dadurch wird die erfolgreiche Installation der Waage auf Ihrem System sichergestellt.

Verwenden Sie den Befehl : $ scala –version

Schritt 6: Laden Sie Apache Spark herunter

Laden Sie Apache Spark gemäß Ihrer Hadoop-Version von https://spark.apache.org/downloads.html herunter

Wenn Sie auf den obigen Link klicken, wird ein Fenster angezeigt.

Schritt 7: Wählen Sie die entsprechende Version für Ihre Hadoop-Version aus und klicken Sie auf den markierten Link.

Ein weiteres Fenster würde erscheinen.

Schritt 8: Klicken Sie auf den markierten Link und Apache Spark wird in Ihr System heruntergeladen.

Überprüfen Sie, ob die Datei .tar.gz im Download-Ordner verfügbar ist.

Schritt 9: Installieren Sie Apache Spark

Zur Installation von Spark muss die TAR-Datei extrahiert werden.

Verwenden Sie den Befehl: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Sie müssen die im Befehl angegebene Version entsprechend Ihrer heruntergeladenen Version ändern. In dieser Version haben wir spark-2.4.0-bin-hadoop2.7 heruntergeladen.

Schritt 10: Richten Sie die Umgebungsvariable für Apache Spark ein

Verwenden Sie den Befehl: $ source ~ / .bashrc

Zeile hinzufügen : export PATH = $ PATH: / usr / local / spark / bin

Schritt 11: Überprüfen Sie die Installation von Apache Spark

Befehl verwenden : $ spark-shell

Wenn die Installation erfolgreich war, wird die folgende Ausgabe erstellt.

Dies bedeutet, dass Apache Spark erfolgreich auf Ihrem Computer installiert wurde und Apache Spark in Scala gestartet wird.

Bereitstellung von Spark auf Hadoop YARN:

Es gibt zwei Modi, um Apache Spark auf Hadoop YARN bereitzustellen.

Cluster-Modus: In diesem Modus verwaltet YARN im Cluster den Spark-Treiber, der in einem Anwendungsmasterprozess ausgeführt wird. Nach dem Initiieren der Anwendung kann der Client gehen.
Client-Modus: In diesem Modus werden die Ressourcen vom Anwendungsmaster von YARN angefordert und der Spark-Treiber wird im Client-Prozess ausgeführt.

Verwenden Sie den folgenden Befehl, um eine Spark-Anwendung im Clustermodus bereitzustellen:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Mit dem obigen Befehl wird ein YARN-Client-Programm gestartet, mit dem der Standardanwendungsmaster gestartet wird.

Verwenden Sie den folgenden Befehl, um eine Spark-Anwendung im Clientmodus bereitzustellen:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Sie können die Spark-Shell im Client-Modus mit dem folgenden Befehl ausführen:

$ spark-shell –master yarn –deploy-mode client

Tipps und Tricks zur Verwendung von Spark Install:

Stellen Sie sicher, dass Java auf Ihrem Computer installiert ist, bevor Sie spark installieren.
Wenn Sie die Sprache scala verwenden, stellen Sie sicher, dass scale bereits installiert ist, bevor Sie Apache Spark verwenden.
Sie können Python auch anstelle von Scala zum Programmieren in Spark verwenden, es muss jedoch wie Scala vorinstalliert sein.
Sie können Apache Spark auch unter Windows ausführen. Es wird jedoch empfohlen, eine virtuelle Maschine zu erstellen und Ubuntu mit Oracle Virtual Box oder VMWare Player zu installieren .
Spark kann ohne Hadoop (dh Standalone-Modus) ausgeführt werden. Wenn jedoch ein Setup mit mehreren Knoten erforderlich ist, werden Ressourcenmanager wie YARN oder Mesos benötigt.
Bei Verwendung von YARN muss Spark nicht auf allen drei Knoten installiert werden. Sie müssen Apache Spark nur auf einem Knoten installieren.
Wenn Sie YARN verwenden und sich im selben lokalen Netzwerk wie der Cluster befinden, können Sie den Client-Modus verwenden. Wenn Sie jedoch weit entfernt sind, können Sie den Cluster-Modus verwenden.

Empfohlene Artikel - Spark Install

Dies ist eine Anleitung zur Installation von Spark. Hier haben wir gesehen, wie Apache Spark im Standalone-Modus und zusätzlich zum Ressourcenmanager YARN bereitgestellt wird. Außerdem werden einige Tipps und Tricks für eine reibungslose Installation von Spark aufgeführt. Sie können auch den folgenden Artikel lesen, um mehr zu erfahren -

So verwenden Sie Spark-Befehle
Eine Karriere in Spark - Sie müssen es versuchen
Unterschiede zwischen Splunk und Spark
Fragen und Antworten zum Spark-Interview
Vorteile von Spark Streaming
Arten von Joins in Spark SQL (Beispiele)

Installieren Sie Spark - Komplette Anleitung zur Installation von Spark

Inhaltsverzeichnis:

Wie installiere ich Spark?

Spark besteht aus verschiedenen Komponenten, die als Spark-Ökosystemkomponenten bezeichnet werden.

Es gibt drei Möglichkeiten, spark auf Ihren Systemen zu installieren oder bereitzustellen:

Spark Standalone-Bereitstellungsmodus:

Schritt 1: Aktualisieren Sie den Paketindex

Schritt 2: Java Development Kit (JDK) installieren

Schritt 3: Überprüfen Sie, ob Java ordnungsgemäß installiert wurde

Schritt 4: Installieren Sie Scala auf Ihrem Computer

Schritt 5: Überprüfen Sie, ob Scala richtig installiert ist

Schritt 6: Laden Sie Apache Spark herunter

Schritt 7: Wählen Sie die entsprechende Version für Ihre Hadoop-Version aus und klicken Sie auf den markierten Link.

Schritt 8: Klicken Sie auf den markierten Link und Apache Spark wird in Ihr System heruntergeladen.

Schritt 9: Installieren Sie Apache Spark

Schritt 10: Richten Sie die Umgebungsvariable für Apache Spark ein

Schritt 11: Überprüfen Sie die Installation von Apache Spark

Bereitstellung von Spark auf Hadoop YARN:

Tipps und Tricks zur Verwendung von Spark Install:

Empfohlene Artikel - Spark Install

Was ist WebSocket? - Methoden und Attribute von WebSockets

7 Hervorragende Kenntnisse über einen Business Analyst

Was ist WIX? - Wie es funktioniert Umfang & Karrierewachstum - Geschicklichkeit & Vorteil

Was ist XHTML? - Wie es funktioniert Fähigkeiten & Karrierewachstum - Vorteile

Was ist Webhosting? Komplette Anleitung zum Webhosting

Fotorealistische Schlagschatten in Photoshop

Infrarot-Fotoeffekt - Photoshop-Tutorial

Die fünf wichtigsten Photoshop-Mischmodi, die Sie kennen müssen - Photoshop Essentials

Sofortiges Foto zu Ölgemälde-Aktion in Photoshop

Grundlegendes zu Ebenenmasken in Photoshop

Business Intelligence vs. Business Analytics - welches ist besser

Blasendiagramm in Excel (Beispiele) - Wie erstelle ich ein Blasendiagramm?

Business Intelligence vs. Datenanalyse - was nützlicher ist

Geschäftsplan-Ideen - Hilfreiche Tipps zum Schreiben von Businessplan-Ideen

5 Das Beste, was Sie über Business Intelligence im Vergleich zu Data Warehouse wissen müssen