Einführung in Hadoop Admin Interview Fragen und Antworten

Sie haben also endlich Ihren Traumjob in Hadoop Admin gefunden, fragen sich aber, wie Sie das Hadoop Admin-Interview knacken können und welche Fragen möglicherweise zu Hadoop Admin-Interviews auftreten könnten. Jedes Interview ist anders und der Umfang eines Jobs ist auch anders. Aus diesem Grund haben wir die häufigsten Fragen und Antworten zu Hadoop Admin-Vorstellungsgesprächen erstellt, um Ihnen dabei zu helfen, in Ihrem Vorstellungsgespräch erfolgreich zu sein.

Im Folgenden finden Sie die Hadoop Admin Interview-Fragen, die Ihnen beim Knacken eines Interviews mit Hadoop helfen.

1. Was ist Rack-Awareness? Und warum ist es notwendig?

Antworten:
Bei der Rack-Erkennung handelt es sich um die Verteilung von Datenknoten auf mehrere Racks. HDFS folgt dem Algorithmus zur Erkennung von Racks, um die Datenblöcke zu platzieren. Ein Rack enthält mehrere Server. Und für einen Cluster können mehrere Racks vorhanden sein. Angenommen, es gibt einen Hadoop-Cluster mit 12 Knoten. Es können 3 Racks mit jeweils 4 Servern vorhanden sein. Alle 3 Racks sind so verbunden, dass alle 12 Knoten verbunden sind und einen Cluster bilden. Bei der Entscheidung über die Anzahl der Racks ist der Replikationsfaktor von entscheidender Bedeutung. Wenn täglich 100 GB Daten mit dem Replikationsfaktor 3 fließen, müssen sich 300 GB Daten im Cluster befinden. Es ist eine bessere Option, die Daten über die Racks replizieren zu lassen. Auch wenn ein Knoten ausfällt, befindet sich das Replikat in einem anderen Rack.

2. Was ist die Standardblockgröße und wie ist sie definiert?

Antworten:
128MB und ist in der Datei hdfs-site.xml definiert und kann je nach Datenvolumen und Zugriffsebene angepasst werden. Wenn an einem Tag 100 GB Daten fließen, werden die Daten getrennt und im Cluster gespeichert. Wie viele Dateien wird es geben? 800 Dateien. (1024 * 100/128) (1024 à konvertiert ein GB in MB.) Es gibt zwei Möglichkeiten, die Größe des benutzerdefinierten Datenblocks festzulegen.

  1. hadoop fs -D fs.local.block.size = 134217728 (in Bits)
  2. Fügen Sie in hdfs-site.xml diese Eigenschaft à block.size zur Bitgröße hinzu .

Wenn Sie die Standardgröße auf 512 MB ändern, da die Datengröße sehr groß ist, wird eine Anzahl von 200 Dateien generiert. (1024 * 100/512)

3. Wie bekommt man den Bericht über das HDFS-Dateisystem? Informationen zur Festplattenverfügbarkeit und zur Anzahl der aktiven Knoten

Antworten:
Befehl: sudo -u hdfs dfsadmin –report

Dies ist die Liste der angezeigten Informationen.

  1. Konfigurierte Kapazität - In hdfs verfügbare Gesamtkapazität
  2. Aktuelle Kapazität - Dies ist die Gesamtmenge an Speicherplatz, die den Ressourcen zur Verfügung gestellt wird, um sie neben dem Metastore und der Fsimage-Nutzung des Speicherplatzes zu speichern.
  3. Verbleibendes DFS - Dies ist der Speicherplatz, der dem HDFS zum Speichern weiterer Dateien noch zur Verfügung steht
  4. Verwendetes DFS - Dies ist der von HDFS belegte Speicherplatz.
  5. DFS Used% - In Prozent
  6. Unter replizierten Blöcken - Anzahl der Blöcke
  7. Blöcke mit beschädigten Replikaten - Wenn beschädigte Blöcke vorhanden sind
  8. Fehlende Blöcke
  9. Fehlende Blöcke (mit Replikationsfaktor 1)

4. Was ist Hadoop Balancer und warum ist es notwendig?

Antworten:
Die auf die Knoten verteilten Daten sind nicht im richtigen Verhältnis verteilt, was bedeutet, dass die Auslastung der einzelnen Knoten möglicherweise nicht ausgewogen ist. Ein Knoten ist möglicherweise überlastet und der andere ist möglicherweise unterlastet. Dies führt zu einem hohen Kosteneffekt, wenn ein Prozess ausgeführt wird, und es würde zu einer starken Auslastung dieser Knoten führen. Um dies zu lösen, wird der Hadoop-Balancer verwendet, der die Auslastung der Daten in den Knoten ausgleicht. Wenn also ein Balancer ausgeführt wird, werden die Daten dahin verschoben, wo die nicht ausgelasteten Knoten gefüllt werden und die überlasteten Knoten freigegeben werden.

5. Unterschied zwischen Cloudera und Ambari?

Antworten:

Cloudera ManagerAmbari
Verwaltungstool für ClouderaVerwaltungstool für Horton arbeitet
Überwacht und verwaltet den gesamten Cluster und meldet die Verwendung und alle ProblemeÜberwacht und verwaltet den gesamten Cluster und meldet die Verwendung und alle Probleme
Kommt mit Cloudera kostenpflichtigen ServiceOpen Source

6. Was sind die Hauptaktionen, die der Hadoop-Administrator ausführt?

Antworten:
Überwachen des Clusterzustands - Es gibt viele Anwendungsseiten, die überwacht werden müssen, wenn Prozesse ausgeführt werden. (Job History Server, YARN Resource Manager, Cloudera Manager / Ambary abhängig von der Distribution)

Aktivieren Sie die Sicherheit - SSL oder Kerberos

Leistung optimieren - Hadoop Balancer

Fügen Sie bei Bedarf neue Datenknoten hinzu - Änderungen und Konfigurationen der Infrastruktur

Optional, um MapReduce Job History Tracking Server zu aktivieren. Manchmal half ein Neustart der Dienste dabei, den Cache-Speicher freizugeben. Dies ist, wenn der Cluster mit einem leeren Prozess.

7. Was ist Kerberos?

Antworten:
Es ist eine Authentifizierung erforderlich, damit jeder Dienst synchronisiert werden kann, um den Prozess auszuführen. Es wird empfohlen, Kerberos zu aktivieren. Da es sich um verteiltes Rechnen handelt, ist es immer ratsam, die Daten zu verschlüsseln, während auf sie zugegriffen und sie verarbeitet werden. Da jeder Knoten verbunden ist und jeder Informationsdurchgang über ein Netzwerk erfolgt. Da Hadoop Kerberos verwendet, werden Passwörter nicht über das Netzwerk gesendet. Stattdessen werden Kennwörter verwendet, um die Verschlüsselungsschlüssel zu berechnen. Die Nachrichten werden zwischen dem Client und dem Server ausgetauscht. In einfachen Worten, Kerberos stellt sich bei der Verschlüsselung auf sichere Weise gegenseitig eine Identität (Knoten) zur Verfügung.

Konfiguration in core-site.xml
Hadoop.security.authentication: Kerberos

8. Was ist die wichtige Liste der hdfs-Befehle?

Antworten:

BefehleZweck
hdfs dfs –lsZum Auflisten der Dateien aus dem hdfs-Dateisystem.
Hdfs dfs –putKopieren Sie die Datei vom lokalen System in das hdfs-Dateisystem
Hdfs dfs –chmod 777Erteilen Sie eine Lese-, Schreib- und Ausführungsberechtigung für die Datei
Hdfs dfs –getKopieren Sie die Datei vom hdfs-Dateisystem in das lokale Dateisystem
Hdfs dfs –catZeigen Sie den Dateiinhalt aus dem hdfs-Dateisystem an
Hdfs dfs –rmEntfernen Sie die Datei aus dem hdfs-Dateisystem. Aber es wird in den Papierkorb verschoben (es ist wie ein Papierkorb in Windows)
Hdfs dfs –rm –skipTrashEntfernt die Datei dauerhaft aus dem Cluster.
Hdfs dfs –touchzErstellen Sie eine Datei im hdfs-Dateisystem

9. Wie überprüfe ich die Protokolle eines im Cluster gesendeten Hadoop-Jobs und beende den bereits laufenden Prozess?

Antworten:
Fadenprotokolle –applicationId - Der Anwendungsmaster generiert Protokolle in seinem Container und fügt die von ihm generierte ID hinzu. Dies ist hilfreich, um den Status des laufenden Prozesses und die Protokollinformationen zu überwachen.

thread application –kill - Wenn ein vorhandener Prozess, der im Cluster ausgeführt wurde, beendet werden muss, wird der Befehl kill verwendet, wobei die Anwendungs-ID zum Beenden des Jobs im Cluster verwendet wird.

Empfohlener Artikel

Dies ist ein Leitfaden für die Liste der Fragen und Antworten zu Hadoop Admin-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Hadoop Admin-Vorstellungsgesprächen problemlos durchgreifen kann. Weitere Informationen finden Sie auch in den folgenden Artikeln

  1. Hadoop Cluster Interview Fragen und Antworten - Top 10 am nützlichsten
  2. Fragen im Vorstellungsgespräch zur Datenmodellierung - 10 Wichtige Frage
  3. Fragen im Vorstellungsgespräch bei SAS System - Die 10 wichtigsten Fragen