Einführung in Talend Open Studio

Talend bietet Open Studio an, ein Open-Source-Programm für die Datenintegration. Es verfügt über mehr als 800 Komponenten für verschiedene Integrationszwecke. Laden Sie Talend Open Studio von https://www.talend.com/download/ herunter.

Datenintegration bedeutet, Daten aus verschiedenen Quellen zu kombinieren und zu einer einzigen Ansicht zusammenzufassen, um aussagekräftige Daten zu erhalten, die dem Unternehmen oder der Organisation helfen können, ihr Geschäft durch die Analyse dieser Daten zu verbessern. Die Integration hilft dabei, Daten abzurufen, die Daten zu bereinigen, erforderliche Transformationen vorzunehmen usw. und sie dann in ein Data Warehouse zu laden.

Was ist Talend?

Talend ist ein ETL-Tool, das für die Datenintegration verwendet wird. Talend bietet eine Lösung für Datenaufbereitung, Datenqualität, Datenintegration und Big Data. Hier werden wir einige der Komponenten diskutieren. Das folgende Beispiel ist leicht zu erkennen. Ein Sim-Operator verfügt über umfangreiche Daten zu Plänen, Kunden, Sim-Details usw. Diese umfangreichen Daten werden auch für die Integration verwendet.

Kunde Ein Kauf einer Sim mit einer Regierungs-ID

Seinen Namen als AB C geben

Adresse als Chennai, Chennai

Telefonnummer wie 1234567890

Nach der Datenintegration

Vorname: AB

Nachname: C

Adresse: Chennai, Indien

Telefonnummer: +911234567890

Hier werden die Daten bereinigt und in etwas Sinnvolleres umgewandelt.

Leistungen

  • Analysieren von Geschäftstrends mithilfe der Datenintegration
  • Daten in einem System zusammenfassen
  • Zeitsparend und effizienter und weniger Nacharbeit
  • Einfache Berichterstellung - wird von BI-Tools verwendet
  • Verwalten und Einfügen von Daten in das Data Warehouse und Data Marts

Anwendung

Hier sind die folgenden Anwendungen zu nennen

1. Mit Talend arbeiten

  • Stellen Sie sicher, dass Java installiert und Umgebungsvariablen festgelegt sind.
  • Laden Sie die Open-Source-Version von der Talend-Website herunter und installieren Sie die Software.
  • Erstellen Sie ein neues Projekt und beenden Sie das Setup
  • Talend wird mit dem Designer-Tab geöffnet.
  • Talend ist ein Eclipse-basiertes Tool. Die Komponenten können aus der Palette gezogen oder durch Klicken und Eingeben des Komponentennamens ausgewählt werden.

2. Der erste Job Eine Datei lesen

  • Suchen Sie nach der Komponente tFileinputdelimited. Diese Komponente wird zum Lesen von Dateien mit Trennzeichen verwendet.
  • Platzieren Sie die Komponente tfileinputdelimited. Suchen Sie nach tlogrow und platzieren Sie es im Jobdesigner.
  • Klicken Sie mit der rechten Maustaste auf tfileinputdelimited und wählen Sie row-> main und zeichnen Sie eine Linie, um zu wachsen.
  • In der Komponente wählt die Registerkarte den Pfad der Datei aus, die Sie lesen möchten, und gibt das Zeilentrennzeichen als \ n an. Wenn die Datei ein Trennzeichen hat, können Sie das Trennzeichen erwähnen.
  • Klicken Sie auf das Schema und geben Sie die Details zum Spaltentyp an. Sie können auch die gesamte Zeile als Zeichenfolge mit einer Spalte lesen. Der Trennzeichenwert sollte leer sein.
  • Sie können auch die Kopf- und Fußzeile überspringen.
  • Wählen Sie in der Komponente tlogrow aus, wie die Daten angezeigt werden sollen. Tabellenformat oder einzeiliges Format.
  • tlogrow zeigt die Ausgabe in der Ausführungskonsole an.
  • Nachdem Sie sowohl tfileinputdelimited als auch tlogrow verbunden haben, führen Sie den Job auf der Registerkarte run aus.
  • Sie können den Inhalt der Datei in der Konsole gedruckt sehen.

3. Ein zweiter Job mit Tmap

  • Lesen Sie eine Datei und filtern Sie sie in verschiedene Ausgabedateien.
  • Lesen Sie eine Datei in der Komponente tfileinputdelimited mit einem Spaltenschema als Datensatz.
  • Tmap-Komponente - Diese Komponente hilft bei der Transformation von Daten mit einigen eingebauten Funktionen wie Nachschlagen, Verknüpfen usw.
  • Erstellen Sie in tmap zwei Ausgänge out1 und out2.
  • Fügen Sie im Filter out1 row3.record.contains ("talend") hinzu und zeichnen Sie den Datensatz auf out1.
  • Zeichnen Sie die Aufzeichnungslinie zu anderem out2.

  • Nehmen Sie von der tmap Hauptzeilen und stellen Sie eine Verbindung zu zwei tfileoutputdelimited her.
  • out1 Link zu einer Dateioutputdelimited1 als file1.txt und out2 zu einer anderen Dateioutputdelimited2 als file2.txt.
  • txt enthält Datensätze, die talend enthalten.
  • txt enthält Datensätze mit anderen Namen.

4. Eingebaut und Repository

  • Eingebaut bedeutet, dass Sie jedes Mal ein Schema oder Details für die Verbindung zu einer Datenbank festlegen sollten.
  • Das Repository ist praktisch, um die Details in den Metadaten zu speichern, sodass Sie dieselben Details jedes Mal wiederverwenden können, ohne sie jedes Mal manuell eingeben zu müssen. In Metadaten können Sie Dateischema, Datenbankverbindungen, Hadoop-Verbindung, Hive-Verbindung, S3-Verbindung und vieles mehr speichern.

Komponenten von Talend Open Studio

Nachfolgend sind die folgenden Komponenten von Talend Open Studio aufgeführt

1. tDateiliste

  • Diese Komponente listet die Dateien in einem Verzeichnis oder Ordner mit einem bestimmten Dateimaskenmuster auf.

2. tMysqlConnection

  • Diese Komponente wird für die Verbindung mit der MySQL-Datenbank verwendet.
  • MySQL-Komponenten können diese Verbindung für die einfache Einrichtung der Verbindung zur Datenbank verwenden.

3. tMysqlinput

  • Diese Komponente hilft beim Ausführen einer MySQL-Datenbankabfrage und beim Abrufen der Tabelle oder der Spalten. Diese Komponente wird verwendet, um Abfragen auszuwählen und die Details abzurufen.

4. tMysqlOutput

  • Diese Komponente wird zum Einfügen oder Aktualisieren von Daten in die MySQL-Datenbank verwendet.

5. Vorjob

  • Diese Komponente wird als erste im Job ausgeführt und kann mit anderen Komponenten verbunden werden, wenn ein Subjob ausgeführt wird.

6. Postjob

  • Diese Komponente wird als letzte im Job ausgeführt. Sie können dies mit verbindungsnahen Komponenten verbinden.

7. tlogcatcher

  • Diese Komponente erfasst die Warnungen und Fehler im Job.
  • Wichtigste Komponente in der Fehlerbehandlungstechnik.
  • Mit dieser Komponente können Fehlerprotokolle zusammen mit tfileoutputdelimited geschrieben werden.
  • Es gibt mehr als 800+ Komponenten.

Kontextvariable

  • Kontextvariablen sind Variablen, die im Job überall verwendet werden können.
  • Es enthält Werte und kann auch mit Hilfe der Trun-Komponente an einen anderen Job übergeben werden.
  • Die Verwendung von Kontextvariablen ist, dass wir den Wert für verschiedene Zwecke ändern können.
  • Beispielsweise können wir eine Reihe von Werten für die Entwicklungskontextgruppe und eine andere Reihe von Kontextwerten für die Produktion festlegen.
  • Auf diese Weise müssen wir den Job nicht ändern. Es reicht aus, nur die Kontextparameter zu ändern.

Einen Job aufbauen

  • Um einen Job zu erstellen, klicken Sie mit der rechten Maustaste auf den Job und wählen Sie "Job erstellen".
  • Sie können den Build-Job in TAC importieren.
  • In der Talend Administration Console planen Sie einen Job, um auch die Job-Set-Abhängigkeit auszulösen.
  • Sie können den Job auch mit einem Artefakt-Job aus dem Nexus-Repository importieren.

Erstellen Sie eine Aufgabe in TAC

  • Stellenleiter in TAC öffnen
  • Klicken Sie auf neue Aufgaben und wählen Sie normale Aufgaben oder Artefaktaufgaben aus.
  • Importieren Sie den erstellten Job oder wählen Sie ihn aus dem Nexus aus.
  • Wählen Sie den Jobserver aus, auf dem das Talend ausgeführt werden soll.
  • Speichern Sie die Aufgabe.
  • Jetzt können Sie den Job bereitstellen und ausführen.

Fazit - Talend Open Studio

„Vereinfachen Sie ETL und ELT mit dem führenden kostenlosen Open-Source-ETL-Tool für Big Data.“ Lautet der Slogan für Open Studio. Talend Bigdata verfügt über viele Komponenten für den Umgang mit großen Datenmengen. Standardjob, Bigdata-Job, Bigdata-Streaming-Jobs sind die verschiedenen Arten von Jobs, die in Talend verfügbar sind. Bigdata-Jobs können in einem Spark- oder Mapreduce-Framework erstellt werden.

Empfohlene Artikel

Dies ist eine Anleitung zu Talend Open Studio. Hier diskutieren wir die Vorteile, Anwendungen und Komponenten von Talend Open Studio. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Leitfaden zur Integration von Talend-Daten
  2. Wichtige Talend Interviewfragen
  3. Talend vs Mulesoft: Unterschiede
  4. Talend vs Pentaho: 8 nützliche Vergleiche zu lernen

Kategorie: