Was ist MapReduce in Hadoop
MapReduce ist ein Framework von Hadoop, das verwendet wird, um große Datenmengen auf großen Clustern von Standardhardware zuverlässig parallel zu verarbeiten. Hadoop ist ein Open-Source-Projekt, das von der Apache-Softwarestiftung bereitgestellt wird. Mit Hadoop wurden Analysen sowohl für strukturierte als auch für unstrukturierte Daten schnell und zuverlässig durchgeführt. Hadoop kann mit sehr großen Datenmengen umgehen. Dabei kann es sich sowohl um strukturierte Daten als auch um unstrukturierte Daten handeln, die tatsächlich mit Big Data verknüpft sind. Hadoop-Framework, mit dem eine Anwendung die Daten in einer verteilten Form speichern und große Datasets über mehrere Computercluster hinweg mit einem einfachen Programmiermodell verarbeiten kann. Map Reduce wird also als Programmiermodell für die Verarbeitung bezeichnet riesige Datenmenge verteilt über die Anzahl der Cluster. Hadoop kann von einzelnen Servern auf Tausende von Computerknoten oder -maschinen hochskaliert werden, die jeweils zur Berechnung und Speicherung verwendet werden.
Das Apache Hadoop-Projekt enthält eine Reihe von Unterprojekten:
- Hadoop Common: Hadoop Common mit Hilfsprogrammen, die die anderen Hadoop-Unterprojekte unterstützen.
- Hadoop Distributed File System (HDFS): Mit Hadoop Distributed File System können Sie auf die verteilte Datei zugreifen, um auf Anwendungsdaten zuzugreifen.
- Hadoop MapReduce: Hadoop MapReduce ist ein Software-Framework für die Verarbeitung großer verteilter Datensätze in Computing-Clustern.
- Hadoop YARN: Hadoop YARN ist ein Framework für das Ressourcenmanagement und die Jobplanung.
Wie vereinfacht MapReduce in Hadoop die Arbeit?
Mit MapReduce können Sie die Datenverarbeitung auf Hunderten oder Tausenden von Cluster-Computern problemlos skalieren. Das MapReduce-Modell arbeitet tatsächlich in zwei Schritten, die als Map and Reduce bezeichnet werden, und der Verarbeitung, die als Mapper bzw. Reducer bezeichnet wird. Sobald wir MapReduce für eine Anwendung geschrieben haben, ist die Skalierung der Anwendung auf mehrere oder sogar mehrere tausend Cluster lediglich eine Konfigurationsänderung. Diese Funktion des MapReduce-Modells hat viele Programmierer angezogen, es zu verwenden.
Wie funktioniert MapReduce in Hadoop?
Das MapReduce-Programm wird hauptsächlich in vier Schritten ausgeführt:
- Eingabesplits
- Karte
- Mischen
- Reduzieren
Jetzt werden wir jeden Schritt sehen, wie sie funktionieren.
1. Karte Schritt-
Dieser Schritt ist die Kombination aus dem Eingabeaufteilungsschritt und dem Kartenschritt. Im Map-Schritt wird die Quelldatei zeilenweise übergeben. Bevor die Eingabe an den Kartenfunktionsjob übergeben wird, wird die Eingabe in die kleine feste Größe unterteilt, die als Eingabesplits bezeichnet wird. Die Eingabe-Aufteilung ist ein Teil der Eingabe, der von einer einzelnen Karte verarbeitet werden kann. Im Map-Schritt werden alle geteilten Daten an die Mapper-Funktion übergeben, dann verarbeitet die Mapper-Funktion die Daten und gibt dann Werte aus. Im Allgemeinen liegen die Auftragseingabedaten der Karte oder des Mapper in Form einer Datei oder eines Verzeichnisses vor, die bzw. das im Hadoop-Dateisystem (HDFS) gespeichert ist.
2. Reduzieren Sie
Dieser Schritt ist die Kombination aus dem Shuffle-Schritt und dem Reduce-Schritt. Die Reduktionsfunktion oder der Reduktionsjob übernimmt die Daten, die das Ergebnis der Kartenfunktion sind. Nach der Verarbeitung durch Reduzieren der Funktion wird ein neuer Ergebnissatz erzeugt, der wieder in das HDFS zurückgespeichert wird.
In einem Hadoop-Framework ist es nicht sicher, ob jeder Cluster den Job "Map" oder "Reduce" oder "Map" und "Reduce" ausführt. Daher sollte die Anforderung der Aufgaben "Zuordnen" und "Reduzieren" an die entsprechenden Server im Cluster gesendet werden. Das Hadoop-Framework selbst verwaltet alle Aufgaben wie das Ausstellen, Überprüfen des Arbeitsabschlusses, Abrufen von Daten aus HDFS, Kopieren von Daten in den Cluster der Knoten und so weiter. In Hadoop findet das Computing hauptsächlich auf Knoten statt, zusammen mit Daten auf Knoten selbst, wodurch der Netzwerkverkehr reduziert wird.
Daher ist das MapReduce-Framework im Hadoop-Framework sehr hilfreich.
Vorteile von MapReduce
- Skalierbarkeit - Mit MapReduce lässt sich Hadoop in hohem Maße skalieren, da große Datenmengen auf mehreren Servern verteilt gespeichert werden können. Da es auf mehrere verteilt ist, kann es parallel betrieben werden.
- Kosteneffektive Lösung - MapReduce bietet eine sehr kosteneffektive Lösung für Unternehmen, die die wachsenden Daten speichern und auf kosteneffektive Weise verarbeiten müssen, wie es die heutigen Geschäftsanforderungen erfüllen.
- Flexibilität - Mit MapReduce ist Hadoop sehr flexibel für verschiedene Datenquellen und sogar für verschiedene Datentypen wie strukturierte oder unstrukturierte Daten. So ist es sehr flexibel, auf strukturierte oder unstrukturierte Daten zuzugreifen und diese zu verarbeiten.
- Schnell - Als Hadoop-Speicher werden Daten im verteilten Dateisystem, mit denen die Daten auf der lokalen Festplatte eines Clusters gespeichert werden, und die MapReduce-Programme im Allgemeinen auch auf denselben Servern gespeichert, wodurch die Daten schneller verarbeitet werden können, ohne dass auf sie zugegriffen werden muss die Daten von anderen Servern.
- Parallelverarbeitung - Da Hadoop Speicherdaten im verteilten Dateisystem speichert und das MapReduce-Programm so arbeitet, dass es Aufgaben aufteilt und Aufgaben reduziert und das parallel ausführen könnte. Und wieder wird durch die parallele Ausführung die gesamte Laufzeit verkürzt.
Kompetenzen
Erforderliche Kenntnisse für MapReduce in Hadoop sind gute Programmierkenntnisse in Java (obligatorisch), Betriebssystem Linux und Kenntnisse in SQL-Abfragen.
Der Umfang von MapReduce in Hadoop
MapReduce in Hadoop ist ein schnell wachsendes Feld, da das Big-Data-Feld wächst. Daher ist der Umfang von MapReduce in Hadoop in Zukunft vielversprechend, da die Menge an strukturierten und unstrukturierten Daten von Tag zu Tag exponentiell zunimmt. Social-Media-Plattformen generieren eine Menge unstrukturierter Daten, die gewonnen werden können, um echte Einblicke in verschiedene Bereiche zu erhalten.
Fazit
- MapReduce ist ein Framework von Hadoop, mit dem große Datenmengen auf großen Clustern von Standardhardware zuverlässig parallel verarbeitet werden können.
- Das Apache Hadoop-Projekt enthält eine Reihe von Unterprojekten wie Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce und Hadoop YARN.
- Im Kartenschritt werden alle aufgeteilten Daten an die Kartenfunktion übergeben, dann verarbeitet die Kartenfunktion die Daten und gibt dann Werte aus.
- Die Reduktionsfunktion oder der Reduktionsjob übernimmt die Daten, die das Ergebnis der Kartenfunktion sind.
- Die MapReduce-Vorteile sind Skalierbarkeit, kostengünstige Lösung, Flexibilität, Schnelligkeit und Parallelverarbeitung.
Empfohlene Artikel
Dies war eine Anleitung zu Was ist MapReduce in Hadoop. Hier haben wir die Komponenten, das Arbeiten, die Fähigkeiten, das Karrierewachstum und die Vorteile von MapReduce in Hadoop besprochen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren
- Was ist ein Algorithmus?
- Unterschiede zwischen Hadoop und MapReduce
- Was ist Azure?
- Was ist Big Data-Technologie?
- So funktioniert MapReduce