Einführung in HDFS-Befehle
Big Data ist ein Begriff für Datensätze, die so umfangreich oder zusammengesetzt sind, dass herkömmliche Anwendungssoftware für die Datenverarbeitung nicht ausreicht, um mit ihnen zusammenzuarbeiten. Hadoop ist ein Java-basiertes Open-Source-Programmierframework, das die Verarbeitung und den Speicherplatz enorm umfangreicher Datensätze in einer verteilten Computerumgebung verkettet. Apache Software Foundation ist der Schlüssel zur Installation von Hadoop
Eigenschaften von HDFS:
- HDFS läuft auf Master / Slave-Architektur
- Dateien werden von HDFS zum Speichern der benutzerbezogenen Daten verwendet
- Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
- Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
- Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.
Namenode:
- Hier wird das Dateisystem nach Namensknoten gepflegt
- Namenode ist auch für die Protokollierung aller Dateisystemänderungen verantwortlich und verwaltet außerdem ein Abbild des vollständigen Dateisystem-Namespace und der Datei-Blockmap im Speicher
- Die Überprüfung erfolgt regelmäßig. daher kann hier leicht die Phase wiederhergestellt werden, bevor der Absturzpunkt erreicht werden kann.
Datenknoten:
- Ein Datenknoten stellt Daten in Dateien in seinem lokalen Dateisystem bereit
- Um über seine Existenz zu informieren, sendet der Datenknoten den Heartbeat an den namenode
- Für jeden 10. empfangenen Heartbeat wird ein Blockreport erstellt
- Die in diesen Datenknoten gespeicherten Daten müssen repliziert werden
Datenreplikation:
- Hier bildet die Folge von Blöcken eine Datei mit einer Standardblockgröße von 128 MB
- Alle Blöcke in der Datei mit Ausnahme des Finales haben eine ähnliche Größe.
- Von jedem einzelnen Datenknoten im Cluster erhält das namenode-Element einen Heartbeat
- BlockReport enthält alle Blöcke eines Datenknotens.
- Enthält eine große Anzahl von Verzeichnissen und Dateien, die in einem hierarchischen Format gespeichert sind.
- Im Inneren wird eine Datei in kleinere Blöcke gerippt und diese Blöcke werden in einem Satz von Datenknoten gespeichert.
- Namenode und Datanode sind der Teil der Software, der auf Produktmaschinen ausgeführt werden soll, die klassisch unter GNU / Linux ausgeführt werden.
Job Tracker: JobTracker-Debatte zum NameNode, um die Position der Daten abzuschließen. Suchen Sie außerdem die besten TaskTracker-Knoten, um Aufgaben basierend auf der Datenlokalität auszuführen
Task-Tracker: Ein TaskTracker ist ein Knoten im Cluster, der Aufgaben - Zuordnen, Reduzieren und Mischen - von einem JobTracker akzeptiert.
Knoten für sekundären Namen (oder) Prüfpunkt: Ruft das EditLog in regelmäßigen Abständen vom Namensknoten ab und wird auf das zugehörige FS-Image angewendet. Und kopiert ein fertiges FS-Image beim Neustart auf den Namensknoten zurück. Der gesamte Zweck des Sekundärnamensknotens besteht darin, einen Prüfpunkt in HDFS zu haben.
GARN:
- YARN verfügt über eine zentrale Ressource-Manager-Komponente, die Ressourcen verwaltet und die Ressourcen jeder einzelnen Anwendung zuweist.
- Hier ist der Ressourcenmanager der Master, der die dem Cluster zugeordneten Ressourcen beurteilt. Der Ressourcenmanager besteht aus zwei Komponenten, dem Anwendungsmanager und einem Scheduler. Diese beiden Komponenten verwalten zusammen die Jobs auf den Clustersystemen. Eine andere Komponente ruft den Node Manager (NM) auf, der für die Verwaltung der Jobs und des Workflows der Benutzer auf einem bestimmten Knoten zuständig ist.
- Eine exakte Replikation der Daten im aktiven Namensknoten wird vom Standby-Namensknoten gehalten. Es fungiert als Slave und behält genügend Status bei, um bei Bedarf ein schnelles Failover zu ermöglichen.
Grundlegende HDFS-Befehle:
Grundlegende HDFS-Befehle |
||
Sr.No | HDFS-Befehlseigenschaft | HDFS-Befehl |
1 | Hadoop-Version drucken | $ hadoop Version |
2 | Listen Sie den Inhalt des Stammverzeichnisses in HDFS auf | $ hadoop fs -ls |
3 | Geben Sie an, wie viel Speicherplatz auf einem aktuell gemounteten Dateisystem belegt und verfügbar ist | $ hadoop fs -df hdfs: / |
4 | Der HDFS-Balancer gleicht Daten über die DataNodes hinweg neu aus und verschiebt Blöcke von überlasteten zu unterlasteten Knoten. | $ Hadoop Balancer |
5 | Hilfebefehl | $ hadoop fs -help |
HDFS-Befehle für Fortgeschrittene:
Intermediate HDFS-Befehle |
||
Sr.No | HDFS-Befehlseigenschaft | HDFS-Befehl |
6 | Erstellt ein Verzeichnis am angegebenen HDFS-Speicherort | $ hadoop fs -mkdir / user / cloudera / |
7 | Kopiert Daten von einem Ort an einen anderen | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Zeigen Sie den von einem bestimmten Verzeichnis in HDFS belegten Speicherplatz an | $ hadoop fs -du -s -h / user / cloudera / |
9 | Entfernen Sie ein Verzeichnis in Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Entfernt alle Dateien im angegebenen Verzeichnis | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | Den Müll leeren | $ hadoop fs -expunge |
12 | kopiert Daten von und nach lokal zu HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Erweiterte HDFS-Befehle:
Intermediate HDFS-Befehle |
||
Sr.No | HDFS-Befehlseigenschaft | HDFS-Befehl |
13 | Dateiberechtigungen ändern | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | Legen Sie den Datenreplikationsfaktor für eine Datei fest | $ hadoop fs -setrep -w 5 / user / cloudera / pigjobs / |
15 | Zählen Sie die Anzahl der Verzeichnisse, Dateien und Bytes unter hdfs | $ hadoop fs -count hdfs: / |
16 | machen namenode existiert im abgesicherten Modus | $ sudo -u hdfs hdfs dfsadmin -safemode verlassen |
17 | Hadoop formatiert einen Namensknoten | $ hadoop namenode -format |
HDFS Tipps und Tricks:
1) Wir können eine schnellere Wiederherstellung erzielen, wenn die Anzahl der Clusterknoten höher ist.
2) Die Erhöhung der Speicherkapazität pro Zeiteinheit erhöht die Wiederherstellungszeit.
3) Namenode-Hardware muss sehr zuverlässig sein.
4) Durchdachte Überwachung kann durch Ambari erreicht werden.
5) Der Systemmangel kann durch Erhöhen der Reduzierungsanzahl verringert werden.
Empfohlene Artikel
Dies war eine Anleitung zu HDFS-Befehlen. Hier haben wir HDFS-Befehle, -Features, ihre grundlegenden, mittleren und erweiterten Befehle mit bildlicher Darstellung, Tipps und Tricks zu den Befehlen besprochen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren -
- Knotenbefehle
- Matlab-Befehle
- Vorteile von DBMS
- Hadoop-Ökosystem
- Hadoop fs Befehle