Im Vorstellungsgespräch bei Hadoop Admin - Am nützlichsten und am gefragtesten

Einführung in Hadoop Admin Interview Fragen und Antworten

Sie haben also endlich Ihren Traumjob in Hadoop Admin gefunden, fragen sich aber, wie Sie das Hadoop Admin-Interview knacken können und welche Fragen möglicherweise zu Hadoop Admin-Interviews auftreten könnten. Jedes Interview ist anders und der Umfang eines Jobs ist auch anders. Aus diesem Grund haben wir die häufigsten Fragen und Antworten zu Hadoop Admin-Vorstellungsgesprächen erstellt, um Ihnen dabei zu helfen, in Ihrem Vorstellungsgespräch erfolgreich zu sein.

Im Folgenden finden Sie die Hadoop Admin Interview-Fragen, die Ihnen beim Knacken eines Interviews mit Hadoop helfen.

1. Was ist Rack-Awareness? Und warum ist es notwendig?

Antworten:
Bei der Rack-Erkennung handelt es sich um die Verteilung von Datenknoten auf mehrere Racks. HDFS folgt dem Algorithmus zur Erkennung von Racks, um die Datenblöcke zu platzieren. Ein Rack enthält mehrere Server. Und für einen Cluster können mehrere Racks vorhanden sein. Angenommen, es gibt einen Hadoop-Cluster mit 12 Knoten. Es können 3 Racks mit jeweils 4 Servern vorhanden sein. Alle 3 Racks sind so verbunden, dass alle 12 Knoten verbunden sind und einen Cluster bilden. Bei der Entscheidung über die Anzahl der Racks ist der Replikationsfaktor von entscheidender Bedeutung. Wenn täglich 100 GB Daten mit dem Replikationsfaktor 3 fließen, müssen sich 300 GB Daten im Cluster befinden. Es ist eine bessere Option, die Daten über die Racks replizieren zu lassen. Auch wenn ein Knoten ausfällt, befindet sich das Replikat in einem anderen Rack.

2. Was ist die Standardblockgröße und wie ist sie definiert?

Antworten:
128MB und ist in der Datei hdfs-site.xml definiert und kann je nach Datenvolumen und Zugriffsebene angepasst werden. Wenn an einem Tag 100 GB Daten fließen, werden die Daten getrennt und im Cluster gespeichert. Wie viele Dateien wird es geben? 800 Dateien. (1024 * 100/128) (1024 à konvertiert ein GB in MB.) Es gibt zwei Möglichkeiten, die Größe des benutzerdefinierten Datenblocks festzulegen.

hadoop fs -D fs.local.block.size = 134217728 (in Bits)
Fügen Sie in hdfs-site.xml diese Eigenschaft à block.size zur Bitgröße hinzu .

Wenn Sie die Standardgröße auf 512 MB ändern, da die Datengröße sehr groß ist, wird eine Anzahl von 200 Dateien generiert. (1024 * 100/512)

3. Wie bekommt man den Bericht über das HDFS-Dateisystem? Informationen zur Festplattenverfügbarkeit und zur Anzahl der aktiven Knoten

Antworten:
Befehl: sudo -u hdfs dfsadmin –report

Dies ist die Liste der angezeigten Informationen.

Konfigurierte Kapazität - In hdfs verfügbare Gesamtkapazität
Aktuelle Kapazität - Dies ist die Gesamtmenge an Speicherplatz, die den Ressourcen zur Verfügung gestellt wird, um sie neben dem Metastore und der Fsimage-Nutzung des Speicherplatzes zu speichern.
Verbleibendes DFS - Dies ist der Speicherplatz, der dem HDFS zum Speichern weiterer Dateien noch zur Verfügung steht
Verwendetes DFS - Dies ist der von HDFS belegte Speicherplatz.
DFS Used% - In Prozent
Unter replizierten Blöcken - Anzahl der Blöcke
Blöcke mit beschädigten Replikaten - Wenn beschädigte Blöcke vorhanden sind
Fehlende Blöcke
Fehlende Blöcke (mit Replikationsfaktor 1)

4. Was ist Hadoop Balancer und warum ist es notwendig?

Antworten:
Die auf die Knoten verteilten Daten sind nicht im richtigen Verhältnis verteilt, was bedeutet, dass die Auslastung der einzelnen Knoten möglicherweise nicht ausgewogen ist. Ein Knoten ist möglicherweise überlastet und der andere ist möglicherweise unterlastet. Dies führt zu einem hohen Kosteneffekt, wenn ein Prozess ausgeführt wird, und es würde zu einer starken Auslastung dieser Knoten führen. Um dies zu lösen, wird der Hadoop-Balancer verwendet, der die Auslastung der Daten in den Knoten ausgleicht. Wenn also ein Balancer ausgeführt wird, werden die Daten dahin verschoben, wo die nicht ausgelasteten Knoten gefüllt werden und die überlasteten Knoten freigegeben werden.

5. Unterschied zwischen Cloudera und Ambari?

Antworten:

Cloudera Manager	Ambari
Verwaltungstool für Cloudera	Verwaltungstool für Horton arbeitet
Überwacht und verwaltet den gesamten Cluster und meldet die Verwendung und alle Probleme	Überwacht und verwaltet den gesamten Cluster und meldet die Verwendung und alle Probleme
Kommt mit Cloudera kostenpflichtigen Service	Open Source

6. Was sind die Hauptaktionen, die der Hadoop-Administrator ausführt?

Antworten:
Überwachen des Clusterzustands - Es gibt viele Anwendungsseiten, die überwacht werden müssen, wenn Prozesse ausgeführt werden. (Job History Server, YARN Resource Manager, Cloudera Manager / Ambary abhängig von der Distribution)

Aktivieren Sie die Sicherheit - SSL oder Kerberos

Leistung optimieren - Hadoop Balancer

Fügen Sie bei Bedarf neue Datenknoten hinzu - Änderungen und Konfigurationen der Infrastruktur

Optional, um MapReduce Job History Tracking Server zu aktivieren. Manchmal half ein Neustart der Dienste dabei, den Cache-Speicher freizugeben. Dies ist, wenn der Cluster mit einem leeren Prozess.

7. Was ist Kerberos?

Antworten:
Es ist eine Authentifizierung erforderlich, damit jeder Dienst synchronisiert werden kann, um den Prozess auszuführen. Es wird empfohlen, Kerberos zu aktivieren. Da es sich um verteiltes Rechnen handelt, ist es immer ratsam, die Daten zu verschlüsseln, während auf sie zugegriffen und sie verarbeitet werden. Da jeder Knoten verbunden ist und jeder Informationsdurchgang über ein Netzwerk erfolgt. Da Hadoop Kerberos verwendet, werden Passwörter nicht über das Netzwerk gesendet. Stattdessen werden Kennwörter verwendet, um die Verschlüsselungsschlüssel zu berechnen. Die Nachrichten werden zwischen dem Client und dem Server ausgetauscht. In einfachen Worten, Kerberos stellt sich bei der Verschlüsselung auf sichere Weise gegenseitig eine Identität (Knoten) zur Verfügung.

Konfiguration in core-site.xml
Hadoop.security.authentication: Kerberos

8. Was ist die wichtige Liste der hdfs-Befehle?

Antworten:

Befehle	Zweck
hdfs dfs –ls	Zum Auflisten der Dateien aus dem hdfs-Dateisystem.
Hdfs dfs –put	Kopieren Sie die Datei vom lokalen System in das hdfs-Dateisystem
Hdfs dfs –chmod 777	Erteilen Sie eine Lese-, Schreib- und Ausführungsberechtigung für die Datei
Hdfs dfs –get	Kopieren Sie die Datei vom hdfs-Dateisystem in das lokale Dateisystem
Hdfs dfs –cat	Zeigen Sie den Dateiinhalt aus dem hdfs-Dateisystem an
Hdfs dfs –rm	Entfernen Sie die Datei aus dem hdfs-Dateisystem. Aber es wird in den Papierkorb verschoben (es ist wie ein Papierkorb in Windows)
Hdfs dfs –rm –skipTrash	Entfernt die Datei dauerhaft aus dem Cluster.
Hdfs dfs –touchz	Erstellen Sie eine Datei im hdfs-Dateisystem

9. Wie überprüfe ich die Protokolle eines im Cluster gesendeten Hadoop-Jobs und beende den bereits laufenden Prozess?

Antworten:
Fadenprotokolle –applicationId - Der Anwendungsmaster generiert Protokolle in seinem Container und fügt die von ihm generierte ID hinzu. Dies ist hilfreich, um den Status des laufenden Prozesses und die Protokollinformationen zu überwachen.

thread application –kill - Wenn ein vorhandener Prozess, der im Cluster ausgeführt wurde, beendet werden muss, wird der Befehl kill verwendet, wobei die Anwendungs-ID zum Beenden des Jobs im Cluster verwendet wird.

Empfohlener Artikel

Dies ist ein Leitfaden für die Liste der Fragen und Antworten zu Hadoop Admin-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Hadoop Admin-Vorstellungsgesprächen problemlos durchgreifen kann. Weitere Informationen finden Sie auch in den folgenden Artikeln

Hadoop Cluster Interview Fragen und Antworten - Top 10 am nützlichsten
Fragen im Vorstellungsgespräch zur Datenmodellierung - 10 Wichtige Frage
Fragen im Vorstellungsgespräch bei SAS System - Die 10 wichtigsten Fragen

Im Vorstellungsgespräch bei Hadoop Admin - Am nützlichsten und am gefragtesten

Inhaltsverzeichnis:

Einführung in Hadoop Admin Interview Fragen und Antworten

1. Was ist Rack-Awareness? Und warum ist es notwendig?

2. Was ist die Standardblockgröße und wie ist sie definiert?

3. Wie bekommt man den Bericht über das HDFS-Dateisystem? Informationen zur Festplattenverfügbarkeit und zur Anzahl der aktiven Knoten

4. Was ist Hadoop Balancer und warum ist es notwendig?

5. Unterschied zwischen Cloudera und Ambari?

6. Was sind die Hauptaktionen, die der Hadoop-Administrator ausführt?

7. Was ist Kerberos?

8. Was ist die wichtige Liste der hdfs-Befehle?

9. Wie überprüfe ich die Protokolle eines im Cluster gesendeten Hadoop-Jobs und beende den bereits laufenden Prozess?

Empfohlener Artikel

Top 10 Ethical Hacking Interview Fragen & Antworten (Aktualisiert für 2019)

Liste der wenigen Fehler in der Website und wie man sie einfach behebt

Fragen und Antworten zu den 12 wichtigsten ETL-Vorstellungsgesprächen (Update für 2019)

Fragen und Antworten zu den Top 10-ETL-Testinterviews (Aktualisiert für 2019)

ETL vs ELT - Top 7 Unterschiede und Vergleiche, die Sie lernen sollten

Perl vs Python - 8 erstaunliche Vergleiche, die Sie kennen sollten

8 hilfreiche Schritte zum Erfolg durch persönliches Branding

Ewigkeitsformel - Rechner (mit Excel-Vorlage)

15 einfache effektive Tipps für ein persönliches Interview - Educba

Stiftwerkzeug in After Effects - Zeichnen und Animieren von Objekten mit dem Stiftwerkzeug

3D-Modellierungssoftware - Top 8 3D-Modellierungssoftware

3ds Max Alternativen - Beste Alternativen zu 3ds Max zum Entwerfen und Bearbeiten

3D-Referenz in Excel (Beispiel) - Wie benutze ich Excel 3D Referenz?

3D-Zellreferenz in Excel - Wie verwende ich eine 3D-Zellreferenz in Excel?

3D-Karten in Excel - Erfahren Sie, wie Sie in Excel auf 3D-Karten zugreifen und diese verwenden