Überblick über Data Lake

Ein Data Lake ist ein Repository, in dem wir eine große Menge von halbstrukturierten, strukturierten und unstrukturierten Daten speichern können. Allen Datenelementen eines Datensees wird eine eindeutige ID mit einer Reihe erweiterter Metadaten-Tags zugewiesen. Wenn eine Geschäftsfrage auftritt, können Sie die relevanten Daten anfordern und dann kleinere Daten analysieren, um die Frage zu beantworten. Der See hat eine flache Architektur im Gegensatz zu einem hierarchischen Data Warehouse, in dem Daten in Dateien und Ordnern gespeichert werden. Ohne vorherige Datenstrukturierung können Sie Ihre Informationen so speichern, wie sie sind, und wir können verschiedene Analysetypen wie Dashboards und Visualisierungen für eine umfangreiche Datenverarbeitung, Echtzeitanalysen und maschinelles Lernen ausführen, um bessere Entscheidungen zu treffen.

Ein See wird von Fachleuten wie Datenwissenschaftlern, Datenentwicklern und Geschäftsanalysten zum Speichern einer großen Datenmenge verwendet.

Es wird in einem See verwendet und ist nicht relational und nicht relational zu IoT-Geräten, Websites, mobilen Anwendungen usw. Im Schema wird es zum Zeitpunkt der Analyse geschrieben, dh zum Zeitpunkt des Lesens. Das Ergebnis nach der Ausführung der Abfrage ist schneller.

Warum brauchen wir einen Data Lake?

Durch den Bau eines Sees können Datenwissenschaftler die ungeklärte Sicht auf Daten sehen.

Gründe für die Verwendung sind wie folgt:

Das Unternehmen, das geschäftliche Vorteile aus seinen Daten erzielt, übertrifft seine Mitbewerber erfolgreich. In einer Umfrage in Aberdeen lag das Unternehmen, das einen Data Lake eingerichtet hatte, 9% über dem organischen Umsatzwachstum ähnlicher Unternehmen. Diese Führungskräfte waren in der Lage, neue Analysetypen wie maschinelles Lernen über neue Quellen wie Protokolldateien, Clickstream-Daten, soziale Medien und Internetverbindungen im See durchzuführen.

Es unterstützt den Import von Daten in Echtzeit. Daten werden von mehreren Ressourcen gesammelt und dann im ursprünglichen Format in den See verschoben. Ein See bietet eine höhere Skalierbarkeit der Daten. Außerdem können Sie durch Indizieren, Crawlen und Katalogisieren der Daten feststellen, welche Art von Daten sich im See befindet.

Es unterstützt Data Governance, das die Verfügbarkeit, Benutzerfreundlichkeit, Sicherheit und Integrität von Daten verwaltet.

Es kann den Forschungs- und Entwicklungsteams helfen, ihre Hypothesen zu testen, Annahmen zu verfeinern und Ergebnisse zu bewerten.

Es ist keine Silostruktur verfügbar.

Es bietet Kunden eine 360-Grad-Ansicht und eine robuste Analyse.

Die Qualität der Analyse steigt auch mit der Zunahme des Datenvolumens, der Datenqualität und der Metadaten.

  • Speicher-Engines wie Hadoop haben es einfach gemacht, unterschiedliche Informationen zu speichern. Es ist nicht erforderlich, Daten mit einem See in einem unternehmensweiten Schema zu modellieren.
  • Die Qualität der Analysen steigt auch mit der Zunahme des Datenvolumens, der Datenqualität und der Metadaten.
  • Es bietet Geschäftsagilität
  • Es ist möglich, maschinelles Lernen und künstliche Intelligenz zu nutzen, um profitable Vorhersagen zu treffen.

Data Lake-Architektur in Hadoop, AWS und Azure

Ein Datensee besteht aus zwei Komponenten: Speicherung und Berechnung. Speicher und Computer können sich entweder vor Ort oder in der Cloud befinden. Dies führt zum Entwurf einer Data-Lake-Architektur in mehreren möglichen Kombinationen.

1. Hadoop

Ein Hadoop-Cluster mit verteiltem Server löst das Problem der großen Datenspeicherung. MapReduce ist das Hadoop-Programmiermodell, mit dem Informationen in kleinere Teilmengen im Servercluster aufgeteilt und verarbeitet werden.

2. AWS

Die AWS-Produktpalette für seine Data-Lake-Lösung ist umfassend. Amazon S3 steht im Mittelpunkt der Speicherfunktionslösung. Diese Datenaufnahmetools, mit denen wir große Datenmengen in S3 übertragen können, sind Kinesis Stream, Kinesis Firehose, Snowball und Direct Connect.

Neben Amazon S3 bieten die NoSQL-Datenbank, Dynamo DB und Elastic Search einen vereinfachten Abfrageprozess. AWS bietet eine große Auswahl an Produkten mit einer steilen anfänglichen Lernkurve. Die umfassenden Funktionen der Lösung werden jedoch häufig in kommerziellen Intelligence-Anwendungen eingesetzt.

3. Azure

Micro-soft bot den data lake an. Der Azure Data Lake verfügt über eine Analyse- und Speicherebene, die als Azure Store (ADLS) bezeichnet wird, und die beiden Komponenten, die die Analyseebene mit Azure Analytics und HDInsight umfasst. Der ADLS-Standard wurde in HDFS erstellt und kann unbegrenzt gespeichert werden. Mit einer einzigen Datei können Billionen von Dateien gespeichert werden, die größer als ein Petabyte sind. Mit Azure Store können Daten in jedem Format gespeichert, gesichert und skaliert werden.

Leistungen

Einige wichtige Punkte sind nachstehend aufgeführt

  • Stellt einen unbegrenzten Datentypwert bereit
  • Anpassbar an Veränderungen schnell
  • Langfristige Betriebskosten werden reduziert
  • Der Hauptvorteil ist die Zentralisierung verschiedener Inhaltsquellen
  • Benutzer aus verschiedenen Abteilungen auf der ganzen Welt können flexibel auf Daten zugreifen
  • Bietet wirtschaftliche Skalierbarkeit und Flexibilität

Risiko

  • Es könnte nach einiger Zeit an Relevanz und Dynamik verlieren.
  • Beim Entwerfen besteht ein größeres Risiko
  • Es erhöht auch die Kosten für Lagerung und Produkte
  • Sicherheit und Zugangskontrolle sind das größte Risiko. Manchmal können Daten unbeaufsichtigt in einem See abgelegt werden, da einige Daten möglicherweise geschützt und reguliert werden müssen.

Empfohlene Artikel

Dies war ein Leitfaden für Was ist ein Data Lake ?. Hier haben wir das Konzept besprochen, warum wir Data Lake mit ihren Vorteilen und Risiken brauchen. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren.

  1. Moderne Datenintegration
  2. Was ist Datenanalyse?
  3. Was ist Data Breach?
  4. Data Scientist gegen Big Data
  5. Data Lake gegen Data Warehouse | Unterschiede

Kategorie: