Einführung in Hbase Interview Fragen und Antworten

HBase ist ein beliebtes spaltenorientiertes NoSQL-Datenbankverwaltungssystem, das auf dem Hadoop Distributed File System (HDFS) ausgeführt wird. Es eignet sich gut für spärliche Datensätze, die in vielen Big-Data-Anwendungsfällen häufig vorkommen.

Hier sind die 10 am häufigsten gestellten Fragen und Antworten zu HBase-Vorstellungsgesprächen für 2019 : Sie haben also endlich Ihren Traumjob bei HBase gefunden und fragen sich, wie Sie das Hbase-Vorstellungsgespräch knacken und was die wahrscheinlichen Fragen zu Hbase-Vorstellungsgesprächen für 2019 sein könnten. Jedes Interview ist anders und der Umfang eines Jobs ist auch anders. Aus diesem Grund haben wir die häufigsten Fragen und Antworten zu Hbase-Vorstellungsgesprächen erstellt, um Ihnen dabei zu helfen, in Ihrem Vorstellungsgespräch erfolgreich zu sein. Diese Fragen gliedern sich in zwei Teile:

Teil 1 - Fragen zu HBase-Vorstellungsgesprächen (Grundkenntnisse)

In diesem ersten Teil werden grundlegende Fragen und Antworten zu HBase-Vorstellungsgesprächen behandelt.

1. Wann sollten Sie HBase anwenden?

Antworten:
Hbase ist nicht für alle Anwendungsfälle geeignet. Ein am besten geeignetes Szenario kann anhand der folgenden Überprüfungen ermittelt werden:
i.Data-Volume: Sollte Petabyte an Daten enthalten, die in einer verteilten Umgebung verarbeitet werden sollen.
ii.Anwendung: HBase ist nicht für OLTP-Systeme (Online Transaction Processing) geeignet, die komplexe Transaktionen mit mehreren Anweisungen erfordern. Außerdem fehlt die komplexe SQL-Unterstützung, die für relationale Analysen erforderlich ist. Dies wird bevorzugt, wenn Sie über eine große Datenmenge mit a verfügen etwas anderes Schema.
iii.Cluster-Hardware: HBase läuft auf HDFS. Und HDFS arbeitet effizient mit einer großen Anzahl von Knoten (mindestens 5). HBase kann nur mit guter Hardwareunterstützung eine gute Auswahl sein.
iv.Nicht traditionelles RDBMS: Hbase kann keinen Anwendungsfall unterstützen, der traditionelle Funktionen wie das Verknüpfen mehrerer Tabellen, komplexe SQls mit verschachtelten oder Fensterfunktionen usw. erfordert.
v.Schneller Direktzugriff auf Daten: Wenn Sie einen Direktzugriff in Echtzeit auf Ihre Daten benötigen, ist HBase ein geeigneter Kandidat. Es eignet sich auch perfekt zum Speichern großer Tabellen mit mehrstrukturierten Daten.

2. Was ist der Unterschied zwischen Cassandra und HBase?

Antworten:
Sowohl HBase als auch Cassandra haben die NoSQL-Datenbank für Big Data aus dem Hadoop-Ökosystem verteilt. Beide wurden für unterschiedliche Anwendungsfälle entwickelt.
Die HBase hat eine Art Master-Slave-Architektur mit mehreren Komponenten wie Zookeeper, Namenode, HBase Master (Hmaster) und Datenknoten usw. Cassandra behandelt alle Knoten als Master, was bedeutet, dass alle Knoten gleich sind und alle Funktionen ausführen.
HBase ist für Lesezugriffe optimiert. Schreibzugriffe werden nur auf den Masterknoten ausgeführt und weisen eine hohe Konsistenz für das Lesen nach dem Schreiben auf. Cassandra bietet eine hervorragende Leseleistung für einzelne Zeilen, wenn die Konsistenz gewählt wird.
Hbase unterstützt keine nativen Sekundärindizes, Cassandra unterstützt Sekundärindizes für Spaltenfamilien, deren Spaltenname bekannt ist.
Zunächst wird Hbase in Google erstellt und als BigTable bezeichnet. Schon jetzt sind APIs von Bigtable und HBase kompatibel. Ursprung von Cassandra ist ein Artikel für DynamoDB, bei dem es sich um eine NoSQL-Datenbank von AWS handelt.

Fahren wir mit den nächsten HBase-Interviewfragen fort.

3. Was sind die Hauptkomponenten von Hbase?

Antworten:
HBase a verfügt über drei wichtige Komponenten: HMaster, Region Server und ZooKeeper.
i.HBase Master - HBase-Tabellen sind in Regionen unterteilt. Während des Startvorgangs entscheidet der Master, welche Region welchem ​​Regionsserver zugewiesen werden soll (Regionsserver ist ein Knoten in einem Cluster). Er verarbeitet auch Tabellenmetadatenoperationen wie das Erstellen oder Ändern des Schemas. Diese Komponente spielt auch eine wichtige Rolle bei der Fehlerbehebung
ii. Regionsserver - Wie oben erwähnt, geschieht hier das eigentliche Schreiben und Lesen von Daten. Dies sind tatsächliche Clusterknoten. Dies wird Regionen von vielen Tabellen haben, was durch das Starten und Beenden von Zeilenschlüsseln entschieden wird. Ein typischer Regionsserver kann bis zu tausend Regionen bedienen
iii.ZooKeeper - ZooKeeper ist ein im Hadoop-Ökosystem weit verbreitetes Cluster-Koordinierungsframework. Zookeeper verfolgt alle Server (Master- und Regionsserver), die im Cluster HMaster vorhanden sind. Kontakte ZooKeeper und Benachrichtigungen werden im Fehlerfall erstellt.

4. Was ist HBase Bloom Filter?

Antworten:
Dies sind die allgemeinen Fragen zu HBase-Vorstellungsgesprächen, die in einem Interview gestellt werden. Ein HBase Bloom Filter ist ein effizienter Mechanismus zum Testen, ob eine Speicherdatei (Wenn etwas in HBase geschrieben wird, wird es zuerst in einen In-Memory-Speicher geschrieben. Sobald dieser Speicher eine bestimmte Größe erreicht, wird es auf die Festplatte in eine Speicherdatei geschrieben.) ) enthält eine bestimmte Zeile oder Zeile-Spalte-Zelle. Normalerweise besteht die einzige Möglichkeit, zu entscheiden, ob ein Zeilenschlüssel in einer Geschäftsdatei vorhanden ist, darin, den Blockindex der Datei einzuchecken, der den Startzeilenschlüssel jedes Blocks in der Geschäftsdatei enthält. Bloom-Filter fungieren als speicherinterne Datenstruktur, die dazu beiträgt, dass nur die Dateien gelesen werden, die diese Zeile enthalten können - nicht alle Speicherdateien. Es verhält sich also wie ein speicherinterner Index, der die Wahrscheinlichkeit angibt, eine Zeile in einer bestimmten Speicherdatei zu finden.

5. Was ist Verdichtung? Erklären Sie verschiedene Arten davon.

Antworten:
HBase speichert alle empfangenen Operationen in seinem Speicherbereich. Wenn der Speicher voll ist, wird er auf die Festplatte geschrieben. Da auf diese Weise von Zeit zu Zeit viele kleine Dateien in HDFS erstellt werden können, kann HBase Dateien auswählen, die zu einer größeren komprimiert werden sollen. Eine Verdichtung wird als geringfügig bezeichnet, wenn HBase nur einen Teil der zu verdichtenden HF-Dateien auswählt, jedoch nicht alle. Bei einer Hauptkomprimierung werden alle Dateien so ausgewählt, dass sie zusammen komprimiert werden. Eine Hauptkomprimierung funktioniert wie eine Nebenkomprimierung, mit der Ausnahme, dass die Löschmarkierungen entfernt werden können, nachdem sie auf alle zugehörigen Zellen angewendet wurden, und alle zusätzlichen Versionen derselben Zelle ebenfalls gelöscht werden.

Teil 2 - Fragen zu HBase-Vorstellungsgesprächen (Fortgeschrittene)

Werfen wir jetzt einen Blick auf die erweiterten HBase-Interview-Fragen.

6.Wie HBase-Versionsdaten?

Antworten:
Wenn ein Datenelement eingefügt / aktualisiert / gelöscht wird, erstellt HBase eine neue Version für diese Spalte. Das tatsächliche Löschen erfolgt nur während der Komprimierung. Wenn eine bestimmte Zelle eine zulässige Anzahl von Versionen überschreitet, werden während der Komprimierung zusätzliche Versionen gelöscht

7. Was ist der Unterschied zwischen Erhalten und Scannen?

Antworten:
Get gibt basierend auf dem angegebenen Zeilenschlüssel nur eine einzelne Zeile aus der Hbase-Tabelle zurück. Der Scan-Befehl gibt abhängig von der angegebenen Suchbedingung eine Reihe von Zeilen zurück. Normalerweise ist get schneller als scan. Also sollte es vorziehen, das zu verwenden, wenn möglich.

Fahren wir mit den nächsten HBase-Interviewfragen fort.

8. Was passiert beim Löschen einer Zeile?

Antworten:
Zum Zeitpunkt des Löschens werden Befehlsdaten nicht physisch aus dem Dateisystem gelöscht, sondern durch Setzen einer Markierung unsichtbar gemacht. Das physische Löschen erfolgt während einer Verdichtung
Spalten-, Versions- und Familien-Löschmarkierungen sind drei verschiedene Arten von Markierungen, die das Löschen einer Spalte, einer Spaltenversion bzw. einer Spaltenfamilie kennzeichnen.

9. Erklären Sie den Unterschied zwischen HBase und Hive.

Antworten:
Dies ist die erweiterte HBase-Interviewfrage, die in einem Interview gestellt wird. HBase und Hive sind völlig unterschiedliche Hadoop-basierte Technologien für die Datenverarbeitung. Hive ist ein relationales SQL-kompatibles verteiltes Speicherframework, während HBase ein NoSQL-Schlüsselwertspeicher ist. Hive fungiert als Abstraktionsschicht über Hadoop mit SQL-Unterstützung. Das HBase-Datenzugriffsmuster ist mit zwei primären Operationen (get und scan) sehr begrenzt. HBase ist ideal für die Echtzeit-Datenverarbeitung, wobei Hive eine ideale Wahl für die Stapelverarbeitung von Daten ist.

10. Was sind Hlog und HFile?

Antworten:
HLog ist die Write-Ahead-Protokolldatei, auch als WAL bezeichnet, und HFile ist die eigentliche Datenspeicherdatei. Daten werden zuerst in die Write-Ahead-Protokolldatei und auch in MemStore geschrieben. Da MemStore voll ist, wird der Inhalt des MemStore in HFiles auf die Festplatte geschrieben.

Empfohlener Artikel

Dies war ein Leitfaden für die Liste der Fragen und Antworten zu Hbase-Vorstellungsgesprächen, damit der Kandidat diese Fragen zu Hbase-Vorstellungsgesprächen leicht durchgreifen kann. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Nützliche Fragen zum Gruppeninterview
  2. Wichtige grundlegende Interviewtipps
  3. Grundlegende Schritte zur Vorbereitung des Vorstellungsgesprächs
  4. Interview-Fragen, zum eines Finanzkandidaten zu stellen