HDFS-Befehl - Einfacher bis erweiterter Befehl mit Tipps und Tricks

Inhaltsverzeichnis:

Anonim

Einführung in HDFS-Befehle

Big Data ist ein Begriff für Datensätze, die so umfangreich oder zusammengesetzt sind, dass herkömmliche Anwendungssoftware für die Datenverarbeitung nicht ausreicht, um mit ihnen zusammenzuarbeiten. Hadoop ist ein Java-basiertes Open-Source-Programmierframework, das die Verarbeitung und den Speicherplatz enorm umfangreicher Datensätze in einer verteilten Computerumgebung verkettet. Apache Software Foundation ist der Schlüssel zur Installation von Hadoop

Eigenschaften von HDFS:

  • HDFS läuft auf Master / Slave-Architektur
  • Dateien werden von HDFS zum Speichern der benutzerbezogenen Daten verwendet
  • Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
  • Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
  • Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.

Namenode:

  • Hier wird das Dateisystem nach Namensknoten gepflegt
  • Namenode ist auch für die Protokollierung aller Dateisystemänderungen verantwortlich und verwaltet außerdem ein Abbild des vollständigen Dateisystem-Namespace und der Datei-Blockmap im Speicher
  • Die Überprüfung erfolgt regelmäßig. daher kann hier leicht die Phase wiederhergestellt werden, bevor der Absturzpunkt erreicht werden kann.

Datenknoten:

  • Ein Datenknoten stellt Daten in Dateien in seinem lokalen Dateisystem bereit
  • Um über seine Existenz zu informieren, sendet der Datenknoten den Heartbeat an den namenode
  • Für jeden 10. empfangenen Heartbeat wird ein Blockreport erstellt
  • Die in diesen Datenknoten gespeicherten Daten müssen repliziert werden

Datenreplikation:

  • Hier bildet die Folge von Blöcken eine Datei mit einer Standardblockgröße von 128 MB
  • Alle Blöcke in der Datei mit Ausnahme des Finales haben eine ähnliche Größe.
  • Von jedem einzelnen Datenknoten im Cluster erhält das namenode-Element einen Heartbeat
  • BlockReport enthält alle Blöcke eines Datenknotens.
  • Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
  • Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
  • Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.

Job Tracker: JobTracker-Debatte zum NameNode, um die Position der Daten abzuschließen. Suchen Sie außerdem die besten TaskTracker-Knoten, um Aufgaben basierend auf der Datenlokalität auszuführen

Task-Tracker: Ein TaskTracker ist ein Knoten im Cluster, der Aufgaben - Zuordnen, Reduzieren und Mischen - von einem JobTracker akzeptiert.

Knoten für sekundären Namen (oder) Prüfpunkt: Ruft das EditLog in regelmäßigen Abständen vom Namensknoten ab und wird auf das zugehörige FS-Image angewendet. Und kopiert ein fertiges FS-Image beim Neustart auf den Namensknoten zurück. Der gesamte Zweck des Sekundärnamensknotens besteht darin, einen Prüfpunkt in HDFS zu haben.

GARN:

  • YARN verfügt über eine zentrale Ressource-Manager-Komponente, die Ressourcen verwaltet und die Ressourcen jeder einzelnen Anwendung zuweist.
  • Hier ist der Ressourcenmanager der Master, der die dem Cluster zugeordneten Ressourcen beurteilt. Der Ressourcenmanager besteht aus zwei Komponenten, dem Anwendungsmanager und einem Scheduler. Diese beiden Komponenten verwalten zusammen die Jobs auf den Clustersystemen. Eine andere Komponente ruft den Node Manager (NM) auf, der für die Verwaltung der Jobs und des Workflows der Benutzer auf einem bestimmten Knoten zuständig ist.
  • Eine exakte Replikation der Daten im aktiven Namensknoten wird vom Standby-Namensknoten gehalten. Es fungiert als Slave und behält genügend Status bei, um bei Bedarf ein schnelles Failover zu ermöglichen.

Grundlegende HDFS-Befehle:

Grundlegende HDFS-Befehle

Sr.NoHDFS-BefehlseigenschaftHDFS-Befehl
1Hadoop-Version drucken$ hadoop Version
2Listen Sie den Inhalt des Stammverzeichnisses in HDFS auf$ hadoop fs -ls
3Geben Sie an, wie viel Speicherplatz auf einem aktuell gemounteten Dateisystem belegt und verfügbar ist$ hadoop fs -df hdfs: /
4Der HDFS-Balancer gleicht Daten über die DataNodes hinweg neu aus und verschiebt Blöcke von überlasteten zu unterlasteten Knoten.$ Hadoop Balancer
5Hilfebefehl$ hadoop fs -help

HDFS-Befehle für Fortgeschrittene:

Intermediate HDFS-Befehle

Sr.NoHDFS-BefehlseigenschaftHDFS-Befehl
6Erstellt ein Verzeichnis am angegebenen HDFS-Speicherort$ hadoop fs -mkdir / user / cloudera /
7Kopiert Daten von einem Ort an einen anderen$ hadoop fs -put data / sample.txt / user / training / hadoop
8Zeigen Sie den von einem bestimmten Verzeichnis in HDFS belegten Speicherplatz an$ hadoop fs -du -s -h / user / cloudera /
9Entfernen Sie ein Verzeichnis in Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Entfernt alle Dateien im angegebenen Verzeichnis$ hadoop fs -rm -skipTrash hadoop / retail / *
11Den Müll leeren$ hadoop fs -expunge
12kopiert Daten von und nach lokal zu HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Erweiterte HDFS-Befehle:

Intermediate HDFS-Befehle

Sr.NoHDFS-BefehlseigenschaftHDFS-Befehl
13Dateiberechtigungen ändern$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14Legen Sie den Datenreplikationsfaktor für eine Datei fest$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Zählen Sie die Anzahl der Verzeichnisse, Dateien und Bytes unter hdfs$ hadoop fs -count hdfs: /
16machen namenode existiert im abgesicherten Modus$ sudo -u hdfs hdfs dfsadmin -safemode verlassen
17Hadoop formatiert einen Namensknoten$ hadoop namenode -format

HDFS Tipps und Tricks:

1) Wir können eine schnellere Wiederherstellung erzielen, wenn die Anzahl der Clusterknoten höher ist.

2) Die Erhöhung der Speicherkapazität pro Zeiteinheit erhöht die Wiederherstellungszeit.

3) Namenode-Hardware muss sehr zuverlässig sein.

4) Durchdachte Überwachung kann durch Ambari erreicht werden.

5) Der Systemmangel kann durch Erhöhen der Reduzierungsanzahl verringert werden.

Empfohlene Artikel

Dies war eine Anleitung zu HDFS-Befehlen. Hier haben wir HDFS-Befehle, -Features, ihre grundlegenden, mittleren und erweiterten Befehle mit bildlicher Darstellung, Tipps und Tricks zu den Befehlen besprochen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

  1. Knotenbefehle
  2. Matlab-Befehle
  3. Vorteile von DBMS
  4. Hadoop-Ökosystem
  5. Hadoop fs Befehle