Einführung in Hadoop Tools

Hadoop Tools sind das Framework, mit dem große Datenmengen verarbeitet werden. Diese Daten werden auf einem Cluster verteilt und verteiltes Rechnen wird durchgeführt. Die Daten werden in Blöcken mit einer Größe von 128 MB gespeichert und zur Verarbeitung und Erzielung eines Ergebnisses wird die Leistung von Map Reduce verwendet. Traditionell wurden Map und Reduce in Java geschrieben, aber es war schwierig, die Ressourcen, die in Data Warehouse arbeiten, zu vergleichen, da sie keine Erfahrung damit hatten. SQL ist bekannt und einfach zu bedienen. Wenn Sie also einen Weg finden, SQL wie eine Abfrage zu schreiben, die in Map and Reduce konvertiert wird, wurde dies von Facebook gegründet und später an Apache gespendet. Dieses Tool wird als Hive bezeichnet. Yahoo hat auch ein Tool namens Pig entwickelt, das bei der Ausführung in Map Reduce konvertiert wird. Ebenso haben wir Sqoop und Flume für Datenbewegungs- und Injection-Tools. HBase ist ein Datenbankverwaltungssystem.

Funktionen von Hadoop Tools

  1. Bienenstock
  2. Schwein
  3. Sqoop
  4. HBase
  5. Tierpfleger
  6. Gerinne

Nun werden wir die Funktionen mit einer kurzen Erklärung sehen.

1. Bienenstock

Der Apache-Hive wurde von Facebook gegründet und später an die Apache-Stiftung gespendet, die eine Data-Warehouse-Infrastruktur ist. Sie erleichtert das Schreiben von SQL wie Query mit dem Namen HQL oder HiveQL. Diese Abfragen werden intern in Map Reduce-Jobs konvertiert, und die Verarbeitung erfolgt mithilfe von Hadoop Distributed Computing. Es kann die Daten verarbeiten, die sich in HDFS, S3 und dem gesamten mit Hadoop kompatiblen Speicher befinden. Wir können die von Map Reduce bereitgestellten Funktionen immer dann nutzen, wenn wir Schwierigkeiten bei der Implementierung in Hive haben, indem wir sie in benutzerdefinierte Funktionen implementieren. Es ermöglicht dem Benutzer, UDFs zu registrieren und in den Jobs zu verwenden.

Merkmale von Hive

  • Hive kann viele Arten von Dateiformaten verarbeiten, z. B. Sequenzdatei, ORC-Datei, Textdatei usw.
  • Partitionierung, Bucketing und Indizierung stehen für eine schnellere Ausführung zur Verfügung.
  • Komprimierte Daten können auch in eine Hive-Tabelle geladen werden.
  • Verwaltete oder interne Tabellen und externe Tabellen sind die herausragenden Merkmale von Hive.

2. Schwein

Yahoo hat das Apache Pig entwickelt, um ein zusätzliches Tool zur Stärkung von Hadoop durch eine Ad-hoc-Methode zur Implementierung von Map Reduce bereitzustellen. Pig hat eine Engine namens Pig Engine, die Skripte in Map Reduce konvertiert. Pig ist eine Skriptsprache, die Skripts für Pig sind in PigLatin geschrieben, genau wie Hive können wir hier auch UDFs haben, um die Funktionalität zu verbessern. Aufgaben in Pig werden automatisch optimiert, sodass sich Programmierer keine Sorgen machen müssen. Schwein Behandelt sowohl strukturierte als auch unstrukturierte Daten.

Merkmale des Schweins

  • Benutzer können über ihre eigenen Funktionen verfügen, um eine bestimmte Art der Datenverarbeitung durchzuführen.
  • Es ist leicht, Codes in Pig zu schreiben, vergleichsweise ist auch die Länge des Codes geringer.
  • Das System kann die Ausführung automatisch optimieren.

3. Sqoop

Mit Sqoop werden Daten von HDFS zu RDBMS und umgekehrt übertragen. Wir können die Daten aus RDBMS, Hive usw. in HDFS ziehen und sie verarbeiten und wieder in RDBMS exportieren. Wir können die Daten mehrmals in eine Tabelle einfügen und einen Sqoop-Job erstellen und ihn 'n' mal ausführen.

Funktionen von Sqoop

  • Sqoop kann alle Tabellen gleichzeitig in HDFS importieren.
  • Wir können SQL-Abfragen sowie Bedingungen für den Import von Daten einbetten.
  • Wir können Daten in die Struktur importieren, wenn eine Tabelle aus HDFS vorhanden ist.
  • Die Anzahl der Mapper kann gesteuert werden, dh die parallele Ausführung kann durch Angabe der Anzahl der Mapper gesteuert werden.

4. HBase

Das Datenbankverwaltungssystem auf HDFS wird als HBase bezeichnet. HBase ist eine NoSQL-Datenbank, die auf HDFS aufbaut. HBase ist keine relationale Datenbank und unterstützt keine strukturierten Abfragesprachen. HBase nutzt die verteilte Verarbeitung von HDFS. Es kann große Tabellen mit Millionen und Abermillionen von Datensätzen haben.

Funktionen von HBase

  • HBase bietet sowohl lineare als auch modulare Skalierbarkeit.
  • APIs in JAVA können für den Clientzugriff verwendet werden.
  • HBase bietet eine Shell zum Ausführen von Abfragen.

5. Tierpfleger

Apache Zookeeper ist ein zentraler Konfigurationsverwaltungsdienst, der Informationen, Namen und verteilte Synchronisations- und Gruppendienste aufzeichnet. Zookeeper ist ein zentrales Repository, das von verteilten Anwendungen zum Speichern und Abrufen von Daten verwendet wird. Es hilft auch beim Verwalten von Knoten, dh beim Beitreten oder Verlassen eines Knotens im Cluster. Es bietet eine äußerst zuverlässige Datenregistrierung, wenn nur wenige Knoten ausgefallen sind.

Features von Zookeeper

  • Die Leistung kann gesteigert werden, indem die Aufgaben verteilt werden, die durch Hinzufügen weiterer Maschinen erzielt werden.
  • Es verbirgt die Komplexität der Distribution und stellt sich als einzelne Maschine dar.
  • Der Ausfall einiger weniger Systeme wirkt sich nicht auf das gesamte System aus, der Nachteil ist jedoch, dass dies zu einem teilweisen Datenverlust führen kann.
  • Es stellt Atomicity bereit, dh die Transaktion ist entweder erfolgreich oder fehlgeschlagen, befindet sich jedoch nicht in einem unvollständigen Zustand.

6. Gerinne

Apache Flume ist ein Tool für die Datenerfassung, mit dem eine große Datenmenge aus verschiedenen Quellen in einem HDFS, einer HBase usw. gesammelt, aggregiert und transportiert werden kann. Flume ist sehr zuverlässig und kann konfiguriert werden. Es wurde entwickelt, um Streaming-Daten vom Webserver oder Ereignisdaten an HDFS zu übertragen, z. B. um Twitter-Daten an HDFS zu übertragen. Flume kann Daten in jedem der zentralen Datenspeicher wie HBase / HDFS speichern. Wenn es eine Situation gibt, in der die erzeugte Datenrate höher ist als die Geschwindigkeit, mit der Daten geschrieben werden können, fungiert der Gerinne als Vermittler und stellt einen gleichmäßigen Datenfluss sicher.

Eigenschaften von Flume

  • Es kann Webserverdaten zusammen mit den Ereignisdaten, wie z. B. Daten aus sozialen Medien, erfassen.
  • Flume-Transaktionen sind kanalbasiert, dh es werden zwei Nachrichten gepflegt, eine zum Senden und eine zum Empfangen.
  • In einem Gerinne ist eine horizontale Skalierung möglich.
  • Es ist hochgradig fehlertolerant, da in einem Gerinne ein kontextbezogenes Routing vorhanden ist.

Fazit - Hadoop Tools

Hier in diesem Artikel haben wir einige der Hadoop-Tools kennengelernt und erfahren, wie sie in der Datenwelt nützlich sind. Wir haben Hive and Pig gesehen, das zum Abfragen und Analysieren von Daten, zum Verschieben von Daten und zum Aufnehmen von Streaming-Daten in HDFS verwendet wird.

Empfohlene Artikel

Dies war ein Leitfaden für Hadoop Tools. Hier diskutieren wir verschiedene Tools von Hadoop mit ihren Funktionen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Hadoop-Alternativen
  2. Hadoop-Datenbank
  3. SQL-String-Funktionen
  4. Was ist Big Data?

Kategorie: