Hadoop Cluster Interview Fragen und Antworten

Der Zweck dieses Artikels besteht darin, allen Big-Data-Anwärtern zu helfen, alle Fragen im Zusammenhang mit dem Einrichten der Big-Data-Umgebung in einer Organisation zu beantworten. Dieser Fragebogen hilft beim Einrichten von Datenknoten und Namensknoten sowie beim Definieren der Kapazität des von Big Data Daemons gehosteten Servers.

Wenn Sie also endlich Ihren Traumjob bei Hadoop Cluster gefunden haben, sich aber fragen, wie Sie das Hadoop Cluster-Interview knacken können und was die wahrscheinlichen Hadoop Cluster-Interview-Fragen sein könnten. Jedes Interview ist anders und der Umfang eines Jobs ist auch anders. Aus diesem Grund haben wir die häufigsten Fragen und Antworten zu Hadoop Cluster-Vorstellungsgesprächen erstellt, um Ihnen dabei zu helfen, in Ihrem Vorstellungsgespräch erfolgreich zu sein.

Einige der wichtigsten Hadoop Cluster-Interviewfragen, die in einem Interview häufig gestellt werden, lauten wie folgt:

1.Was sind die wichtigsten Hadoop-Komponenten im Hadoop-Cluster?

Antworten :
Hadoop ist ein Framework, in dem Big Data verarbeitet wird, oder Hadoop ist die Plattform, auf der große Datenmengen auf Commodity-Servern verarbeitet werden können. Hadoop ist die Kombination vieler Komponenten. Im Folgenden sind die Hauptkomponenten in der Hadoop-Umgebung aufgeführt.
Name Node : Es ist der Master Node, der alle Datenknoteninformationen und den Datenspeicherort im Metadatenformat verwaltet.
Sekundärer Namensknoten : Funktioniert als primärer Namensknoten, wenn der primäre Namensknoten ausfällt.
HDFS (Hadoop Distributed File System) : Es kümmert sich um den gesamten Speicher des Hadoop-Clusters.
Datenknoten : Datenknoten sind Slave-Knoten. Die tatsächlichen Daten werden zur Verarbeitung auf Slave-Knoten gespeichert.
YARN (Yet Another Resource Negotiator) : Ein Software-Framework zum Schreiben der Anwendungen und zum Verarbeiten großer Datenmengen. Es bietet die gleichen Funktionen wie MapReduce und ermöglicht außerdem die parallele Ausführung jedes Batch-Jobs in einem Hadoop-Cluster.

2.Wie plane ich die Datenspeicherung im Hadoop-Cluster?

Antworten :
Der Speicher basiert auf der Formel (Speicher = Tägliche Datenaufnahme * Replikation).
Wenn der Hadoop-Cluster täglich 120 TB Daten abruft und wir einen Standardreplikationsfaktor haben, ist dies der tägliche Datenspeicherbedarf
Speicherbedarf = 120 TB (tägliche Datenaufnahme) * 3 (Standardreplikation) => 360 TB
Infolgedessen müssen mindestens 360 TB Datencluster für die tägliche Datenaufnahme eingerichtet werden.
Die Speicherung hängt auch von der Anforderung der Datenaufbewahrung ab. Wenn Daten zwei Jahre im selben Cluster gespeichert werden sollen, müssen Datenknoten entsprechend der Aufbewahrungsanforderung angeordnet werden.

3. Berechnen Sie die Anzahl der Datenknoten.

Antworten :
Wir müssen eine Anzahl von Datenknoten berechnen, die für den Hadoop-Cluster erforderlich sind. Angenommen, wir haben Server mit JBOD von 10 Festplatten und jede Festplatte hat eine Speichergröße von 4 TB, sodass jeder Server über 40 TB Speicher verfügt. Hadoop-Cluster erhält Daten mit 120 TB pro Tag und 360 TB nach Anwendung des Standardreplikationsfaktors.
Anzahl der Datenknoten = Tägliche Datenaufnahme / Datenknotenkapazität
Anzahl Datenknoten = 360/40 => 9 Datenknoten
Daher müssen für den Hadoop-Cluster, der 120 TB Daten mit der obigen Konfiguration erhält, nur 9 Datenknoten eingerichtet werden.

4.Wie ändere ich den Replikationsfaktor im Hadoop-Cluster?

Antworten :
Bearbeiten Sie die Datei hdfs-site.xml. Der Standardpfad befindet sich im Ordner conf / des Hadoop-Installationsverzeichnisses. Ändern / Hinzufügen der folgenden Eigenschaft in hdfs-site.xml:
dfs.replication
3
Replikation blockieren
Replikationsfaktor 3 ist nicht zwingend erforderlich. Er kann auch als 1 festgelegt werden. Replikationsfaktor 5 funktioniert auch in Hadoop-Clustern. Durch das Einrichten des Standardwerts wird der Cluster effizienter und es ist ein Minimum an Hardware erforderlich.
Das Erhöhen des Replikationsfaktors würde die Hardwareanforderung erhöhen, da der Datenspeicher mit dem Replikationsfaktor multipliziert wird.

5.Was ist die Standardgröße für Datenblöcke in Hadoop und wie kann sie geändert werden?

Antworten :
Die Blockgröße reduziert / unterteilt die Daten in Blöcke und speichert sie auf verschiedenen Datenknoten.
Standardmäßig beträgt die Blockgröße 128 MB (in Apache Hadoop) und wir können die Standardblockgröße ändern.
Bearbeiten Sie die Datei hdfs-site.xml. Der Standardpfad befindet sich im Ordner conf / des Hadoop-Installationsverzeichnisses. Ändern / Hinzufügen der folgenden Eigenschaft in hdfs-site.xml:
dfs.block.size
134217728
Block Größe
Die Blockgröße in Bytes beträgt 134.217.728 oder 128 MB. Geben Sie außerdem die Größe mit einem Suffix (ohne Berücksichtigung der Groß- / Kleinschreibung) an, z. B. k (Kilo), m (Mega-), g (Giga-) oder t (Tera-), um die Blockgröße in KB, MB, TB usw. festzulegen.

6. Wie lange sollte ein Hadoop-Cluster eine gelöschte HDFS-Datei im Verzeichnis delete / trash behalten?

Antworten :
Der Parameter "fs.trash.interval" gibt an, wie lange HDFS gelöschte Dateien in der Hadoop-Umgebung behalten kann, um die gelöschte Datei abzurufen.
Der Intervallzeitraum kann nur in Minuten angegeben werden. Für ein Abrufintervall von 2 Tagen müssen wir die Eigenschaft in einem fließenden Format angeben.
Bearbeiten Sie die Datei core-site.xml und fügen Sie sie mit der folgenden Eigenschaft hinzu bzw. ändern Sie sie
fs.trash.interval
2880
Standardmäßig ist das Abrufintervall 0, aber Hadoop Administrator kann die oben angegebene Eigenschaft je nach Anforderung hinzufügen / ändern.

7.Was sind die grundlegenden Befehle zum Starten und Stoppen von Hadoop-Daemons?

Antworten :
Alle Befehle zum Starten und Stoppen der in sbin / folder gespeicherten Daemons.
./sbin/stop-all.sh - Um alle Dämonen auf einmal zu stoppen.
hadoop-daemon.sh Startname Knoten
Hadoop-daemon.sh Startdatenknoten
yarn-daemon.sh, Ressourcenmanager starten
yarn-daemon.sh, Knotenmanager starten
mr-jobhistory-daemon.sh Startet den Verlaufsserver

8.Was ist die Eigenschaft zum Definieren der Speicherzuordnung für von YARN verwaltete Aufgaben?

Antworten :
Die Eigenschaft "yarn.nodemanager.resource.memory-mb" muss geändert / hinzugefügt werden, um die Speicherzuordnung für alle von YARN verwalteten Aufgaben zu ändern.
Es gibt die Größe des Arbeitsspeichers in MB an. Datenknoten benötigen 70% des tatsächlichen RAM, um für YARN verwendet zu werden. Datenknoten mit 96 GB werden 68 GB für YARN verwenden, der Rest des RAM wird vom Datenknotendämon für "Nicht-YARN-Arbeit" verwendet.
Bearbeiten Sie die Datei "yarn.xml file" und fügen Sie die folgende Eigenschaft hinzu bzw. ändern Sie sie.
yarn.nodemanager.resource.memory-mb
68608
Der Standardwert für yarn.nodemanager.resource.memory-mb ist 8.192 MB (8 GB). Wenn Datenknoten über eine große RAM-Kapazität verfügen, müssen Sie den Wert auf bis zu 70% ändern. Andernfalls wird Speicher verschwendet.

9.Was sind die Empfehlungen für die Dimensionierung des Namensknotens?

Antworten :
Die folgenden Details werden empfohlen, um den Master-Knoten zu Beginn einzurichten.
Prozessoren: Für Prozesse ist eine einzelne CPU mit 6-8 Kernen ausreichend.
RAM-Speicher: Für die Daten- und Auftragsverarbeitung sollte der Server mindestens 24-96 GB RAM haben.
Speicher: Da auf dem Master-Knoten keine HDFS-Daten gespeichert sind. Sie können 1-2 TB als lokalen Speicher verwenden
Da es schwierig ist, zukünftige Workloads zu bestimmen, sollten Sie Ihren Cluster so gestalten, dass Sie Hardware wie CPU, RAM und Speicher auswählen, die sich im Laufe der Zeit problemlos aufrüsten lassen.

10.Was sind die Standardports im Hadoop-Cluster?

Antworten :

Daemon-NameStandardport Nr
Name Node.50070
Datenknoten.50075
Sekundärer Namensknoten.50090
Backup / Checkpoint-Knoten.50105
Job Tracker.50030
Aufgaben-Tracker.50060

Empfohlene Artikel

Dies war ein Leitfaden für die Liste der Fragen und Antworten zu Hadoop-Cluster-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Hadoop-Cluster-Vorstellungsgesprächen leicht durchgreifen kann. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Elasticsearch Interview Fragen und Antwort-Top und am nützlichsten
  2. 9 Amazing MapReduce Interview Fragen und Antworten
  3. 8 Nützlichster Leitfaden für Fragen zu Big Data-Vorstellungsgesprächen
  4. Fragen und Antworten zu ETL-Vorstellungsgesprächen, die Sie kennen sollten