Einführung in Hive Interview Fragen und Antworten

Im neuen Datenzeitalter ist Hive ein Open-Source-Toolpaket für ETL- und Data-Warehousing-Infrastrukturen im Petabyte-Bereich zum Speichern strukturierter und unstrukturierter Daten, die auf dem Distributed File System (HDFS) basieren.
zum Analysieren, Abfragen und Mining großer Volumendatensätze durch Aktivieren der SQL-ähnlichen Sprache HiveQL (HQL) und zur einfachen Ausführung von Abfragen durch Planen von Hadoop MapReduce.

Hive baut auf Hadoop auf, um Big Data zu verarbeiten und zu analysieren, und vereinfacht das Abfragen.
Die Struktur wurde ursprünglich von Facebook erstellt, später von der Apache Software Foundation als Open Source weiterentwickelt und als Apache-Struktur bezeichnet. Inzwischen nutzen viele Unternehmen Apache Hive für ihre Big-Data-Lösungen.

Wenn Sie nach einem Job suchen, der mit Hive zusammenhängt, müssen Sie sich auf die Hive-Interview-Fragen 2018 vorbereiten. Obwohl jedes Interview anders ist und der Umfang eines Jobs auch anders ist, können wir Ihnen mit den wichtigsten Fragen und Antworten zum Hive-Interview 2018 weiterhelfen, die Ihnen helfen, den Sprung zu wagen und Ihr Vorstellungsgespräch zum Erfolg zu führen.

Nachstehend finden Sie die Liste der am häufigsten in einem Interview gestellten Fragen zu Hive-Vorstellungsgesprächen. Diese Fragen gliedern sich in zwei Teile:

Teil 1 - Hive Interview Fragen (Basic)

In diesem ersten Teil werden grundlegende Fragen und Antworten zu Hive-Interviews behandelt.

1. Die verschiedenen Komponenten der Hive-Architektur auflisten?

Antworten:
Im Folgenden sind fünf Hauptkomponenten der Hive-Architektur aufgeführt:
• Benutzeroberfläche (User Interface, UI): Sie fungiert als Kommunikator zwischen Benutzern und Treibern, wenn der Benutzer die Abfragen schreibt, die die Benutzeroberfläche akzeptiert und auf dem Treiber ausführt. Es stehen zwei Arten von Benutzeroberflächen zur Verfügung, nämlich die Befehlszeilen- und die GUI-Oberfläche.
• Treiber: Der Lebenszyklus der HiveQL-Abfrage wird beibehalten. Es empfängt die Abfragen von der Benutzeroberfläche und erstellt die Sitzung zur Verarbeitung der Abfrage.
• Compiler: Er empfängt die Abfragepläne vom Treiber und erhält die erforderlichen Informationen vom Metastore, um den Plan auszuführen.
• Metastore: Hier werden die Informationen zu den Daten wie in einer Tabelle gespeichert. Es kann sich um eine interne oder externe Tabelle handeln. Es sendet die Metadateninformationen an den Compiler, um die Abfrage auszuführen.
• Execute Engine: Der Hive-Service führt das Ergebnis in der Ausführungs-Engine aus. Es führt die Abfrage in MapReduce aus, um die Daten zu verarbeiten. Es ist für die Steuerung jeder Stufe für alle diese Komponenten verantwortlich.

2. Welches sind die verschiedenen Arten von Modi, die Hive bedienen kann?

Antworten:
Dies sind die häufigsten Hive-Interviewfragen, die in einem Interview gestellt werden. Hive kann basierend auf der Datengröße in zwei Modi betrieben werden:
Diese Modi sind:
• Kartenverkleinerungsmodus
•Lokalbetrieb

3. In welchen Szenarien kann Hive verwendet werden und kann nicht verwendet werden?

Antwort :
Wenn Sie Data Warehouse-Anwendungen erstellen, deren Daten statisch sind, wenn Ihre Anwendung keine hohe Antwortzeit benötigt, wenn das Datenvolumen sehr groß ist, wenn sich die Daten nicht schnell ändern und wenn Sie Abfragen anstelle von Skripten verwenden. Hive unterstützt nur OLAP-Transaktionen. Es ist nicht für OLTP-Transaktionen geeignet.

Gehen wir zu den nächsten Hive-Interview-Fragen über.

4. Welche Dateiformate unterstützt Hive? Welche Arten von Anwendungen werden von HIVE unterstützt?

Antworten:
Standardmäßig unterstützt Hive das Textdateiformat und das Binärdateiformat wie Sequenzdatei, ORC-Dateien, Parkettdateien und Avro-Datendateien.
• Sequenzdatei: In der Regel handelt es sich um eine Datei im Binärformat, die komprimiert und aufteilbar ist.
• ORC-Datei: Die optimierte Zeilenspaltendatei wird als spaltenbasierte Datei und spaltenorientierte Speicherdatei aufgezeichnet.
• Parkettdatei: Es handelt sich um eine spaltenorientierte Binärdatei, die für umfangreiche Abfragen sehr effizient ist.
• Avro-Datendatei: Entspricht dem Sequenzdateiformat, bei dem es sich um eine aufteilbare, komprimierbare und zeilenorientierte Datei handelt.
Die maximale Größe des in Hive zulässigen Zeichenfolgendatentyps beträgt 2 GB.

Hive ist ein Data Warehouse-Framework, das für Anwendungen geeignet ist, die in Java, C ++, PHP, Python oder Ruby geschrieben sind.

5. Welche Arten von Tabellen sind in Hive verfügbar?

Antworten:
In der Hive-Anwendung gibt es zwei Arten von Tabellen:
• Verwaltete Tabellen: Die Daten und das Schema werden von Hive gesteuert.
• Externe Tabellen: Nur das Schema kontrolliert die Struktur.

Teil 2 - Hive Interview Questions (Fortgeschrittene)

Lassen Sie uns nun einen Blick auf die erweiterten Hive-Interview-Fragen werfen.

6. Was ist ein Metastore in Hive? Die verschiedenen Arten der Konfiguration von Hive-Metastores auflisten und erläutern?

Antworten:
Metastore in Hive wird zum Speichern der Metadateninformationen verwendet. Es ist ein zentrales Repository in Hive. Hiermit können die Metadateninformationen in einer externen Datenbank gespeichert werden. Standardmäßig speichert Hive Metadateninformationen in der Derby-Datenbank, sie können jedoch auch in anderen Datenbanken wie Oracle, MySQL usw. gespeichert werden.
Es gibt drei Arten von Metastore-Konfigurationen:
• Eingebetteter Metastore: Dies ist ein Standardmodus. Es kann lokal auf die Hive-Bibliothek zugreifen. Alle Befehlszeilenvorgänge werden im eingebetteten Modus ausgeführt. Der Hive-Service, der Metastore-Service und die Datenbank werden in derselben JVM ausgeführt.
• Lokaler Metastore: Er speichert Daten in einer externen Datenbank wie MySQL oder Oracle. Der Hive-Dienst und der Metastore-Dienst werden in derselben JVM ausgeführt und stellen eine Verbindung zu der Datenbank her, die in einer separaten JVM ausgeführt wird.
• Remote-Metastore: Im Remote-Modus werden Abfragen ausgeführt. Hier werden der Metastore-Service und der Hive-Service in einer separaten JVM ausgeführt. Sie können mehrere Metastore-Server einrichten, um die Verfügbarkeit zu erhöhen.

7. Was ist ein Hive Query Processor? Was sind die verschiedenen Komponenten des Hive-Abfrageprozessors?

Antworten:
Dies ist die häufig gestellte Frage zum Hive-Interview in einem Interview. Hive Query Processor wird zum Konvertieren von SQL in MapReduce-Jobs verwendet. Basierend auf der Reihenfolge der Abhängigkeiten werden die Jobs ausgeführt.
Die Komponenten von Hive Query Processor sind nachfolgend aufgeführt:
• Semantic Analyzer
• UDFs und UDAFs
•Optimierer
•Operator
• Parser
• Ausführungs-Engine
• Typüberprüfung
• Generierung eines logischen Plans
• Erstellung eines physischen Plans

8. Was ist die Funktionalität von Object-Inspector in Hive?

Antworten:
Es besteht aus Hive, mit dem die Struktur der einzelnen Spalten und die interne Struktur von Zeilenobjekten identifiziert werden. Auf die komplexen Objekte, die in mehreren Formaten gespeichert sind, kann mit Object-Inspector in Hive zugegriffen werden.
Der Objektinspektor identifiziert die Struktur eines Objekts und Möglichkeiten, auf die internen Felder im Objekt zuzugreifen.

Lassen Sie uns zu den nächsten Hive-Interview-Fragen übergehen.

9. Auf welche Weise können die Anwendungen mit Hive Server verbunden werden?

Antworten:
Es gibt drei Möglichkeiten, die Anwendungen mit dem Hive-Server zu verbinden:
• Thrift Client: Hiermit werden alle Hive-Befehle in einer anderen Programmiersprache wie Java, C ++, PHP, Python oder Ruby ausgeführt.
• ODBC-Treiber: Dies unterstützt das ODBC-Protokoll
• JDBC-Treiber: Dies unterstützt das JDBC-Protokoll

10. Was ist die Standardeinstellung für Lese- und Schreibklassen in Hive?

Antworten:
Nachfolgend finden Sie die in Hive verfügbaren Lese- und Schreibkurse:
• TextInputFormat - Diese Klasse wird zum Lesen von Daten im Nur-Text-Format verwendet.
• HiveIgnoreKeyTextOutputFormat - Diese Klasse wird zum Schreiben von Daten im Nur-Text-Format verwendet.
• SequenceFileInputFormat - Diese Klasse wird zum Lesen von Daten im Hadoop Sequence-Dateiformat verwendet.
• SequenceFileOutputFormat - Diese Klasse wird zum Schreiben von Daten im Hadoop Sequence-Dateiformat verwendet.

Empfohlener Artikel

Dies war ein Leitfaden für die Liste der Fragen und Antworten zu Hive-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Hive-Vorstellungsgesprächen leicht durchgreifen kann. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Top 5 nützliche Fragen und Antworten zum DBA-Interview
  2. 12 Most Awesome GitHub Interview Fragen und Antworten
  3. 15 wichtigsten Ruby Interview Fragen und Antworten
  4. Die 10 nützlichsten Fragen im Vorstellungsgespräch bei HBase