HDFS-Befehl - Einfacher bis erweiterter Befehl mit Tipps und Tricks

Einführung in HDFS-Befehle

Big Data ist ein Begriff für Datensätze, die so umfangreich oder zusammengesetzt sind, dass herkömmliche Anwendungssoftware für die Datenverarbeitung nicht ausreicht, um mit ihnen zusammenzuarbeiten. Hadoop ist ein Java-basiertes Open-Source-Programmierframework, das die Verarbeitung und den Speicherplatz enorm umfangreicher Datensätze in einer verteilten Computerumgebung verkettet. Apache Software Foundation ist der Schlüssel zur Installation von Hadoop

Eigenschaften von HDFS:

HDFS läuft auf Master / Slave-Architektur
Dateien werden von HDFS zum Speichern der benutzerbezogenen Daten verwendet
Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.

Namenode:

Hier wird das Dateisystem nach Namensknoten gepflegt
Namenode ist auch für die Protokollierung aller Dateisystemänderungen verantwortlich und verwaltet außerdem ein Abbild des vollständigen Dateisystem-Namespace und der Datei-Blockmap im Speicher
Die Überprüfung erfolgt regelmäßig. daher kann hier leicht die Phase wiederhergestellt werden, bevor der Absturzpunkt erreicht werden kann.

Datenknoten:

Ein Datenknoten stellt Daten in Dateien in seinem lokalen Dateisystem bereit
Um über seine Existenz zu informieren, sendet der Datenknoten den Heartbeat an den namenode
Für jeden 10. empfangenen Heartbeat wird ein Blockreport erstellt
Die in diesen Datenknoten gespeicherten Daten müssen repliziert werden

Datenreplikation:

Hier bildet die Folge von Blöcken eine Datei mit einer Standardblockgröße von 128 MB
Alle Blöcke in der Datei mit Ausnahme des Finales haben eine ähnliche Größe.
Von jedem einzelnen Datenknoten im Cluster erhält das namenode-Element einen Heartbeat
BlockReport enthält alle Blöcke eines Datenknotens.
Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.

Job Tracker: JobTracker-Debatte zum NameNode, um die Position der Daten abzuschließen. Suchen Sie außerdem die besten TaskTracker-Knoten, um Aufgaben basierend auf der Datenlokalität auszuführen

Task-Tracker: Ein TaskTracker ist ein Knoten im Cluster, der Aufgaben - Zuordnen, Reduzieren und Mischen - von einem JobTracker akzeptiert.

Knoten für sekundären Namen (oder) Prüfpunkt: Ruft das EditLog in regelmäßigen Abständen vom Namensknoten ab und wird auf das zugehörige FS-Image angewendet. Und kopiert ein fertiges FS-Image beim Neustart auf den Namensknoten zurück. Der gesamte Zweck des Sekundärnamensknotens besteht darin, einen Prüfpunkt in HDFS zu haben.

GARN:

YARN verfügt über eine zentrale Ressource-Manager-Komponente, die Ressourcen verwaltet und die Ressourcen jeder einzelnen Anwendung zuweist.
Hier ist der Ressourcenmanager der Master, der die dem Cluster zugeordneten Ressourcen beurteilt. Der Ressourcenmanager besteht aus zwei Komponenten, dem Anwendungsmanager und einem Scheduler. Diese beiden Komponenten verwalten zusammen die Jobs auf den Clustersystemen. Eine andere Komponente ruft den Node Manager (NM) auf, der für die Verwaltung der Jobs und des Workflows der Benutzer auf einem bestimmten Knoten zuständig ist.
Eine exakte Replikation der Daten im aktiven Namensknoten wird vom Standby-Namensknoten gehalten. Es fungiert als Slave und behält genügend Status bei, um bei Bedarf ein schnelles Failover zu ermöglichen.

Grundlegende HDFS-Befehle:

Grundlegende HDFS-Befehle
Sr.No	HDFS-Befehlseigenschaft	HDFS-Befehl
1	Hadoop-Version drucken	$ hadoop Version
2	Listen Sie den Inhalt des Stammverzeichnisses in HDFS auf	$ hadoop fs -ls
3	Geben Sie an, wie viel Speicherplatz auf einem aktuell gemounteten Dateisystem belegt und verfügbar ist	$ hadoop fs -df hdfs: /
4	Der HDFS-Balancer gleicht Daten über die DataNodes hinweg neu aus und verschiebt Blöcke von überlasteten zu unterlasteten Knoten.	$ Hadoop Balancer
5	Hilfebefehl	$ hadoop fs -help

HDFS-Befehle für Fortgeschrittene:

Intermediate HDFS-Befehle
Sr.No	HDFS-Befehlseigenschaft	HDFS-Befehl
6	Erstellt ein Verzeichnis am angegebenen HDFS-Speicherort	$ hadoop fs -mkdir / user / cloudera /
7	Kopiert Daten von einem Ort an einen anderen	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Zeigen Sie den von einem bestimmten Verzeichnis in HDFS belegten Speicherplatz an	$ hadoop fs -du -s -h / user / cloudera /
9	Entfernen Sie ein Verzeichnis in Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Entfernt alle Dateien im angegebenen Verzeichnis	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	Den Müll leeren	$ hadoop fs -expunge
12	kopiert Daten von und nach lokal zu HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Erweiterte HDFS-Befehle:

Intermediate HDFS-Befehle
Sr.No	HDFS-Befehlseigenschaft	HDFS-Befehl
13	Dateiberechtigungen ändern	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	Legen Sie den Datenreplikationsfaktor für eine Datei fest	$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15	Zählen Sie die Anzahl der Verzeichnisse, Dateien und Bytes unter hdfs	$ hadoop fs -count hdfs: /
16	machen namenode existiert im abgesicherten Modus	$ sudo -u hdfs hdfs dfsadmin -safemode verlassen
17	Hadoop formatiert einen Namensknoten	$ hadoop namenode -format

HDFS Tipps und Tricks:

1) Wir können eine schnellere Wiederherstellung erzielen, wenn die Anzahl der Clusterknoten höher ist.

2) Die Erhöhung der Speicherkapazität pro Zeiteinheit erhöht die Wiederherstellungszeit.

3) Namenode-Hardware muss sehr zuverlässig sein.

4) Durchdachte Überwachung kann durch Ambari erreicht werden.

5) Der Systemmangel kann durch Erhöhen der Reduzierungsanzahl verringert werden.

Empfohlene Artikel

Dies war eine Anleitung zu HDFS-Befehlen. Hier haben wir HDFS-Befehle, -Features, ihre grundlegenden, mittleren und erweiterten Befehle mit bildlicher Darstellung, Tipps und Tricks zu den Befehlen besprochen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -

Knotenbefehle
Matlab-Befehle
Vorteile von DBMS
Hadoop-Ökosystem
Hadoop fs Befehle

HDFS-Befehl - Einfacher bis erweiterter Befehl mit Tipps und Tricks

Inhaltsverzeichnis:

Einführung in HDFS-Befehle

Eigenschaften von HDFS:

Namenode:

Datenknoten:

Datenreplikation:

GARN:

Grundlegende HDFS-Befehle:

HDFS-Befehle für Fortgeschrittene:

Erweiterte HDFS-Befehle:

HDFS Tipps und Tricks:

Empfohlene Artikel

Die 10 besten Maßnahmen, die zum Zeitpunkt des Rücktritts zu befolgen sind

Require vs Import - Kennen Sie die 4 erstaunlichsten Vergleiche

Reflexionseffekt in Photoshop - Erstellen Sie Wasserreflexionen in Photoshop

Die besten Tipps zum Schreiben eines professionellen Kündigungsschreibens

Rendern in Maya - Schritte zum Rendern von Objekten mit der Maya-Software

ElGamal-Verschlüsselung - EIGamal-Verschlüsselungsalgorithmus mit Beispiel

Fragen in Vorstellungsgesprächen bei Top 5 Essential Elasticsearch (Updated For 2019)

Effektive Steuersatzformel Rechner (Excel-Vorlage)

EJB vs Spring - Top 10 nützliche Unterschiede, die Sie kennen sollten

Fragen in Vorstellungsgesprächen bei Top 10 für Electrical Engineering (Updated For 2019)

Ruby vs Node - Kennen Sie die Top 7 der nützlichsten Unterschiede

Regel von 72 Formel - Rechner (mit Excel-Vorlage)

Ruby vs Ruby On Rails - 7 nützliche Vergleiche, die Sie lernen müssen

R Programmiersprache - 12 Schritte zur Installation von R Programming Language

R - Quadratformel - Rechner (Excel-Vorlage)