Talend Datenintegration - Vorteile - Anwendungen und Komponenten

Inhaltsverzeichnis:

Anonim

Einführung in die Talend-Datenintegration

Talend-Datenintegration bedeutet, Daten aus verschiedenen Quellen zu kombinieren und zu einer einzigen Ansicht zusammenzufassen, um aussagekräftige Daten zu erhalten, die dem Unternehmen oder der Organisation helfen können, ihr Geschäft durch die Analyse dieser Daten zu verbessern. Die Integration hilft dabei, Daten abzurufen, die Daten zu bereinigen, erforderliche Transformationen vorzunehmen usw. und sie dann in ein Data Warehouse zu laden.

Was ist Talend Data Integration?

  • Talend ist ein ETL-Tool, das für die Datenintegration verwendet wird. Talend bietet eine Lösung für Datenaufbereitung, Datenqualität, Datenintegration und Big Data.
  • Talend bietet Open Studio an, das Open Source für Datenintegration und Big Data ist.
  • Talend Open Studio hilft beim Umgang mit großen Datenmengen mit großen Datenmengen. Es verfügt über mehr als 800 Komponenten für verschiedene Integrationszwecke. Hier werden wir einige der Komponenten diskutieren. Zur Vereinfachung sehen Sie sich das folgende Beispiel an
  • Ein Sim-Operator verfügt über umfangreiche Daten zu Plänen, Kunden, Sim-Details usw. Diese umfangreichen Daten werden auch für die Integration verwendet.

Kunde Ein Kauf einer Sim mit einer Regierungs-ID.
Seinen Namen nennen: AB C
Anschrift wie: Chennai, Chennai
Telefonnummer: 1234567890

Nach der Datenintegration

Vorname: AB
Nachname: C
Adresse: Chennai, Indien
Telefonnummer: +911234567890

Hier werden die Daten bereinigt und in etwas Sinnvolleres umgewandelt.

Vorteile der Datenintegration

Hier diskutieren wir die Vorteile der Datenintegration.

  1. Analysieren von Geschäftstrends mithilfe der Datenintegration
  2. Daten in einem System zusammenfassen
  3. Zeitsparend und effizienter und weniger Nacharbeit
  4. Einfache Berichterstellung - wird von BI-Tools verwendet
  5. Verwalten und Einfügen von Daten in Data Warehouse und Data Marts

Anwendung von Talend Data Integration

Hier diskutieren wir die Anwendung der Talend-Datenintegration.

1. Mit Talend arbeiten

  • Stellen Sie sicher, dass Java installiert und Umgebungsvariablen festgelegt sind.
  • Laden Sie die Open-Source-Version von der Talend-Website herunter und installieren Sie die Software.
  • Erstellen Sie ein neues Projekt und beenden Sie das Setup
  • Talend wird mit dem Designer-Tab geöffnet.
  • Talend ist ein Eclipse-basiertes Tool. Die Komponenten können aus der Palette gezogen oder durch Klicken und Eingeben des Komponentennamens ausgewählt werden.

2. Erster Job beim Lesen einer Datei

  • Suchen Sie nach der Komponente tFileinputdelimited. Diese Komponente wird zum Lesen von Dateien mit Trennzeichen verwendet.
  • Platzieren Sie die Komponente tFileinputdelimited. Suchen Sie nach tLogRow und platzieren Sie es im Jobdesigner.
  • Klicken Sie mit der rechten Maustaste auf tFileinputdelimited und wählen Sie row-> main und zeichnen Sie eine Linie zu tLogRow.
  • In der Komponente wählt die Registerkarte den Pfad der Datei aus, die Sie lesen möchten, und gibt das Zeilentrennzeichen als \ n an. Wenn die Datei ein Trennzeichen hat, können Sie das Trennzeichen erwähnen.
  • Klicken Sie auf das Schema und geben Sie die Details zum Spaltentyp an. Sie können auch die gesamte Zeile als Zeichenfolge mit einer Spalte lesen. Der Trennzeichenwert sollte leer sein.
  • Sie können auch die Kopf- und Fußzeile überspringen.
  • Wählen Sie in der tLogRow-Komponente aus, wie die Daten angezeigt werden sollen. Tabellenformat oder einzeiliges Format.
  • tLogRow zeigt die Ausgabe in der Ausführungskonsole an.
  • Nachdem Sie sowohl tFileinputdelimited als auch tLogRow verbunden haben, führen Sie den Job auf der Registerkarte "Ausführen" aus.
  • Sie können den Inhalt der Datei in der Konsole gedruckt sehen.

3. Zweiter Job mit Tmap

  • Lesen Sie eine Datei und filtern Sie sie in verschiedene Ausgabedateien.
  • Lesen Sie eine Datei in der Komponente tFileinputdelimited mit einem Spaltenschema als Datensatz.
  • Tmap-Komponente - Diese Komponente hilft bei der Transformation von Daten mit einigen eingebauten Funktionen wie Nachschlagen, Verknüpfen usw.
  • Erstellen Sie in tmap zwei Ausgänge out1 und out2.
  • Fügen Sie im Filter out1 record.contains ("talend") hinzu und zeichnen Sie den Datensatz auf out1.
  • Zeichnen Sie die Aufzeichnungslinie zu anderem out2.
  • Nehmen Sie von der tmap Hauptzeilen und stellen Sie eine Verbindung zu zwei tFileoutputdelimited her.
  • out1 Link zu einer Dateioutputdelimited1 als file1.txt und out2 zu einer anderen Dateioutputdelimited2 als file2.txt.
  • txt enthält Datensätze, die talend enthalten.
  • txt enthält Datensätze mit anderen Namen.

4. Built-in und Repository

  • Eingebaut bedeutet, dass Sie jedes Mal ein Schema oder Details für die Verbindung zu einer Datenbank festlegen sollten.
  • Das Repository ist praktisch, um die Details in den Metadaten zu speichern, sodass Sie dieselben Details jedes Mal wiederverwenden können, ohne sie jedes Mal manuell eingeben zu müssen. In Metadaten können Sie Dateischema, Datenbankverbindungen, Hadoop-Verbindung, Hive-Verbindung, S3-Verbindung und vieles mehr speichern.

Komponenten der Talend-Datenintegration

Hier diskutieren wir die Komponenten der Talend-Datenintegration.

1. tFileList: Diese Komponente listet die Dateien in einem Verzeichnis oder Ordner mit einem bestimmten Dateimaskenmuster auf.

2. tMysqlConnection: Diese Komponente dient zur Verbindung mit der MySQL-Datenbank. MySQL-Komponenten können diese Verbindung für die einfache Einrichtung der Verbindung zur Datenbank verwenden.

3. tMysqlInput: Mit dieser Komponente können Sie eine MySQL-Datenbankabfrage ausführen und die Tabelle oder die Spalten abrufen . Diese Komponente wird verwendet, um Abfragen auszuwählen und die Details abzurufen.

4. tMysqlOutput: Diese Komponente wird zum Einfügen oder Aktualisieren von Daten in die MySQL-Datenbank verwendet.

5. tPrejob: Diese Komponente wird als erste im Job ausgeführt und kann mit on Subjob ok mit anderen Komponenten verbunden werden.

6. tPostjob: Diese Komponente wird als letzte im Job ausgeführt. Sie können dies mit verbindungsnahen Komponenten verbinden.

7. tLogcatcher: Diese Komponente erfasst die Warnungen und Fehler im Job. Dies ist die wichtigste Komponente bei der Fehlerbehandlung. Mit dieser Komponente können Fehlerprotokolle zusammen mit tfileoutputdelimited geschrieben werden. Es gibt mehr als 800+ Komponenten.

8. Kontextvariable: Kontextvariablen sind Variablen, die im Job überall verwendet werden können. Es enthält Werte und kann auch mit tRun-Komponenten an einen anderen Job übergeben werden. Die Verwendung von Kontextvariablen besteht darin, dass wir den Wert für verschiedene Zwecke ändern können. Beispielsweise können wir einen Satz von Werten für die Entwicklungskontextgruppe und einen anderen Satz von Kontextwerten für die Produktion haben. Auf diese Weise müssen wir den Job nicht ändern. Es reicht aus, nur die Kontextparameter zu ändern.

9. Erstellen eines Jobs: Um einen Job zu erstellen, klicken Sie mit der rechten Maustaste auf den Job und wählen Sie einen Baujob aus. Sie können den Build-Job in TAC importieren. In der Talend Administration Console planen Sie einen Job, um auch die Job-Set-Abhängigkeit auszulösen. Sie können den Job auch mit einem Artefakt-Job aus dem Nexus-Repository importieren.

10. Erstellen Sie eine Aufgabe im TAC: Öffnen Sie den Jobleiter im TAC. Klicken Sie auf neue Aufgaben und wählen Sie normale Aufgaben oder Artefaktaufgaben aus. Importieren Sie den Build-Job oder wählen Sie aus Nexus. Wählen Sie den Jobserver aus, auf dem das Talend ausgeführt werden soll. Speichern Sie die Aufgabe. Jetzt können Sie den Job bereitstellen und ausführen.

Fazit

  • „Vereinfachen Sie ETL und ELT mit dem führenden kostenlosen Open-Source-ETL-Tool für Big Data.“ Lautet der Slogan für Open Studio.
  • Talend Bigdata verfügt über viele Komponenten für den Umgang mit großen Datenmengen.
  • Standardjob, Bigdata-Job, Bigdata-Streaming-Jobs sind die verschiedenen Arten von Jobs, die in Talend verfügbar sind.
  • Bigdata-Jobs können in einem Spark- oder MapReduce-Framework erstellt werden.

Empfohlener Artikel

Dies ist eine Anleitung zur Talend-Datenintegration. Hier diskutieren wir die Einführung in Talend Data Integration und die Vorteile zusammen mit Anwendungen und Komponenten. Sie können auch unsere anderen Artikelvorschläge durchgehen, um mehr zu erfahren

  1. Datenintegrationstool | Beste 12 Werkzeuge
  2. Talend Interview Fragen und Antworten
  3. Beste Datenvisualisierungstools mit ihren Typen
  4. Talend vs Mulesoft - Unterschiede
  5. Was ist Data Mart?