Data Warehouse vs Hadoop - 6 wichtige Unterschiede zu wissen

Inhaltsverzeichnis:

Anonim

Unterschiede zwischen Data Warehouse und Hadoop

In jedem Jahrzehnt erlebt die IT-Branche eine große Innovation, die die gesamte IT-Branche erschüttert. In den letzten Jahren hat Apache Hadoop das Gleiche getan und Rechenzentren mit neuer Infrastruktur ausgestattet

Da Hadoop die Möglichkeit der Parallelverarbeitung dem Programmierer zur Verfügung stellt, nimmt die Akzeptanz in diesem Bereich exponentiell zu, und sein Ökosystem wächst sowohl in der Tiefe als auch in der Breite. Daher ist es naheliegend zu fragen, ob Hadoops traditionelles Data Warehouse ersetzen wird.

Mal sehen, was Alasdair Anderson (Executive Vice President bei Nordea) auf einem Hadoop-Gipfel zu diesem heißen Thema in der Stadt gesagt hat.

„Derzeit gibt es keine Beziehung zwischen der EDW und Hadoop - sie werden sich ergänzen. Es geht NICHT um Rippen und Ersetzen: Wir werden RDBMS oder MPP nicht loswerden, sondern das richtige Tool für den richtigen Job verwenden - und das wird sehr stark vom Preis abhängen. "

Wann immer diese interessante Diskussion beginnt, kommen uns viele Fragen in den Sinn:

1) Wenn Sie über Big Data verfügen, benötigen Sie ein Data Warehouse?

2) Wird Hadoop das Data Warehouse ersetzen?

3) Ist dies der Tod der traditionellen Data Warehouse-Ära?

Um die Antworten auf all diese Fragen zu kennen, müssen wir uns den größeren Kontext dieses Bildes ansehen.

1. Was ist Hadoop?

Wer hat in letzter Zeit noch nicht von Big Data gehört? Mit Hunderten von Terabytes an Daten, die jeden Tag aus verschiedenen Quellen generiert werden, ist es klar, dass die moderne Welt von heute eine Big-Data-Welt ist

Wenn Sie über Big Data sprechen, werden Sie früher oder später über das heißeste Thema der Big Data-Welt sprechen: Hadoop - aber was genau ist das?

Hadoop ist ein Open-Source-Programmierframework auf Java-Basis, das die Verarbeitung und Speicherung extrem großer Datenmengen in einer verteilten Computerumgebung unterstützt.

Die 4 Module von Hadoop -

Hadoop besteht aus 4 Modulen -

  1. Verteiltes Dateisystem

Das verteilte Dateisystem ermöglicht die Speicherung von Daten in einem leicht zugänglichen Format über eine große Anzahl verknüpfter Speichergeräte.

  1. Karte verkleinern

Map Reduce ist die Kombination von zwei Operationen - Daten aus der Datenbank lesen und in ein für die Analyse geeignetes Format (Map) umwandeln und mathematische Operationen ausführen (Reduce).

  1. Hadoop Common

Hadoop Common bietet die Tools, die für die in HDFS (Hadoop Distributed File System) gespeicherten Daten benötigt werden.

  1. GARN

YARN verwaltet die Ressourcen der Systeme, die die Daten speichern und die Analyse ausführen.

2. Was ist ein Data Warehouse?

Ein Data Warehouse ist eine relationale Datenbank, die für Abfrage- und Analysedaten ausgelegt ist. Es enthält normalerweise historische Daten, die aus verschiedenen Quellen stammen.

Die Data Warehouse-Umgebung umfasst ETL-Lösungen, eine OLAP-Engine (Online Analytical Processing), Client-Analysetools und andere Anwendungen, mit denen der Prozess der Datenanalyse und -bereitstellung für Geschäftsbenutzer verwaltet wird.

Lassen Sie uns zusammenfassen, was Data Warehouse ist -

  1. Subjektorientiert

Ein Data Warehouse kann verwendet werden, um einen bestimmten Themenbereich wie Verkauf, Finanzen und Inventar zu analysieren. Jeder Themenbereich enthält detaillierte Daten.

  1. Integriert

Ein Data Warehouse integriert Daten aus mehreren Datenquellen. Beispielsweise haben Datumsangaben dasselbe Format, und die Männer- / Frauencodes sind konsistent. In einem Data Warehouse gibt es nur eine einzige Möglichkeit, ein Produkt zu identifizieren, und sie verwenden denselben Kundendatensatz, keine Kopien

  1. Nicht flüchtig

Die Daten werden unverändert im Data Warehouse gespeichert und bleiben unverändert. Daher sollten historische Daten in einem Data Warehouse niemals geändert werden.

  1. Zeitunterschied

Man kann Daten aus 3 Monaten, 6 Monaten, 12 Monaten oder sogar älteren Daten aus einem Data Warehouse abrufen.

  1. Nicht virtuell

Das Data Warehouse ist ein physisches, beständiges Repository.

Data Warehouse vs Hadoop (Infografiken)

Unten finden Sie die Top 6 Vergleiche zwischen Data Warehouse und Hadoop

Data Warehouse vs Hadoop - Welches Produkt soll verwendet werden?

  • Wenn Sie saubere, konsistente und qualitativ hochwertige Daten haben, sollten Sie sich für Data Warehouse entscheiden, da Hadoop in einigen seiner Lösungen keine Datenqualität aufweist.
  • Wenn Sie unstrukturierte Rohdaten haben, sollten Sie sich für Hadoop entscheiden, da Hadoop mit unstrukturierten / Rohdaten gut funktioniert, Data Warehouse jedoch nur mit strukturierten Daten.
  • Für Berichte mit niedriger Latenz und interaktiven Berichten sollten Sie sich für Data Warehouse entscheiden
  • Für OLTP- / Echtzeit- / Punktabfragen sollten Sie sich für Data Warehouse entscheiden, da Hadoop gut mit Batchdaten funktioniert.
  • Bei großen Datenmengen sollten Sie sich für Hadoop entscheiden, da Hadoop zur Lösung von Big-Data-Problemen entwickelt wurde.

Head to Head Vergleichstabelle zwischen Data Warehouse und Hadoop

Nachstehend finden Sie eine Liste der Punkte, die Vergleiche zwischen Data Warehouse und Hadoop beschreiben

VergleichsbasisData WarehouseHadoop
DatenIm Data Warehouse analysieren wir strukturierte und verarbeitete DatenIn Hadoop können wir jede Art von Daten verarbeiten, einschließlich strukturierter / unstrukturierter / halbstrukturierter und roher Daten
wird bearbeitetDie Verarbeitung basiert auf Schema-on-Write-KonzeptenDie Verarbeitung basiert auf Schema-on-Read-Konzepten
LagerGeeignet für Daten mit kleinem Volumen und zu teuer für Daten mit großem VolumenEs funktioniert gut mit großen Datenmengen mit großem Volumen, großer Geschwindigkeit und großer Vielfalt
BeweglichkeitEs ist weniger agil und von fester KonfigurationEs ist äußerst flexibel und kann nach Bedarf konfiguriert und neu konfiguriert werden
SicherheitData Warehouse-Technologien gibt es seit Jahrzehnten. Aus Sicherheitsgründen können wir uns daher auf Data Warehouse verlassenWährend die Hadoop-Technologien im Vergleich zu Data Warehouse relativ neu sind, ist die Sicherheit hier ein großes Anliegen
BenutzerGeschäftsleute verwenden normalerweise Data WarehouseHadoop ist auf dem Gebiet der Datenwissenschaft und Datentechnik ziemlich bekannt

Fazit - Data Warehouse gegen Hadoop

Jetzt kennen wir sowohl Data Warehouse als auch Hadoop. Gehen wir zurück und untersuchen die Frage, die wir zu Beginn dieses Artikels zu Data Warehouse und Hadoop gestellt haben.

1) Wenn Sie über Big Data verfügen, benötigen Sie ein Data Warehouse?

Antwort: Solange Ihre Organisation zuverlässige, glaubwürdige und zugängliche Daten benötigt, benötigen Sie ein Data Warehouse.

2) Wird Hadoop das Data Warehouse ersetzen?

Antwort - Der Vergleich von Data Warehouse und Hadoop ist wie der Vergleich von Äpfeln und Orangen. Sowohl Data Warehouse als auch Hadoop haben in verschiedenen Anwendungsszenarien ihre eigenen Vorteile. In einigen Fällen sind wir immer noch auf traditionelle Data Warehouse-Techniken angewiesen, aber mit der Zeit konzentrieren wir uns mehr auf Hadoop Framework, um Big Data-Probleme zu lösen.

3) Ist dies der Tod der traditionellen Data Warehouse-Ära?

Antwort - Wie Sie sehen, ist dies keine einfache Frage und eignet sich daher nicht gut für eine einfache Antwort. Es ist richtig, dass Big Data in den kommenden Jahren den traditionellen Data-Warehousing-Ansatz ändern wird, aber die Konzepte und Praktiken des Data-Warehousing werden nicht überholt.

Empfohlener Artikel

Dies ist ein nützlicher Leitfaden für Data Warehouse im Vergleich zu Hadoop. Wir haben hier die Bedeutung, den Kopf-an-Kopf-Vergleich, den Hauptunterschied und die Schlussfolgerung besprochen. Sie können auch den folgenden Artikel lesen, um mehr zu erfahren -

  1. Hadoop vs Splunk - Finde die besten 7 Unterschiede heraus
  2. Hadoop vs Elasticsearch - Welches ist nützlicher
  3. Big Data vs Data Warehouse - Finden Sie die besten Unterschiede heraus
  4. Business Intelligence gegen Data Warehouse
  5. Splunk gegen Nagios