alunablue - stock.adobe.com

Stitch Data Loader: gemanagte Datenpipeline für die Cloud

Mit Stitch Data Loader von Talend können Anwender Daten aus verschiedenen Quellen in ein Cloud Data Warehouse übertragen und anschließend ihre Datenanalysen starten.

Stitch Data Loader soll Anwender dabei unterstützen, dass sie Daten, die in Unternehmen aus verschiedenen Quellen vorliegen, verarbeiten und analysieren können. Stitch Data Loader von Talend hat vor allem eine Aufgabe: Wer in der AWS-Cloud ein Cloud Data Warehouse betreibt, kann mit dem Dienst Daten aus verschiedenen Quellen in das Data Warehouse übertragen. Die vollständig verwaltete Datenpipeline vereinfacht Analyseprojekte deutlich.

Die Einrichtung ist in wenigen Minuten abgeschlossen. Dabei lassen sich mehrere Quellen gleichzeitig über einen Assistenten einbinden.

Schnelle Einrichtung umfangreicher Datenquellen

Das Einrichten der Datenpipeline in Stitch erfolgt ohne Programmierung, es ist kein Code notwendig. Neben der großen Menge an verschiedenen Datenquellen arbeitet Talend daran, dass Stitch mehr Ziele unterstützt, zu denen der Dienst die Daten replizieren kann. Im Assistenten sind die aktuell verfügbaren Quellen zu finden, die Anbindung erfolgt komplett im Webbrowser.

Im Fokus steht die einfache Verwendung von Daten. Anwender und Administratoren sollen sich nicht damit beschäftigen, Daten in die Cloud zu laden, sondern sich auf die Analyse dieser Daten konzentrieren. Stitch Data Loader kann zum Beispiel Daten zu Amazon Redshift, S3 oder Snowflake übertragen. Weitere Ziele sind Delta Lake on Databricks, Google BigQuery, Microsoft Azure Synapse Analytics, Microsoft SQL Server, MySQL, Panopoly oder PostgreSQL.

Stitch erspart Pflege von ETL-Pipelines

Die Verwendung von Stitch erspart das Erstellen eigener ETL-Pipelines, die regelmäßig gepflegt werden müssen. Alle Abläufe sind automatisiert, sodass nach der Einrichtung die Daten automatisch an Amazon Redshift oder S3 geschickt werden. Sobald die Replikation eingerichtet ist, kann der Dienst neue Daten automatisch in die Cloud übertragen. Die Daten sind dadurch direkt im Data Warehouse verfügbar.

Ein großer Vorteil von Stitch Data Loader ist die Anbindung von fast 150 Datenquellen, von denen mehrere Instanzen genutzt werden können. Die Entwickler bauen den Support regelmäßig aus, sodass sich immer mehr Quellen anbinden lassen. Microsoft Teams und Zoom lassen sich ebenfalls mit Stitch verbinden.

Stitch Data Loader in der Praxis

Der Dienst lässt sich komplett über den AWS Marketplace einrichten. Nach dem Abschluss eines Abonnements oder dem Start des Testzeitraums, erfolgt das Hinzufügen einer neuen Integration. Hier sind die verschiedenen Datenquellen zu sehen, die sich an Stitch anbinden lassen. Wer sich selbst die Anbindung nicht zutraut, erhält über den Support Unterstützung bei der Einrichtung.

Abbildung 1: Die Anbindung von Datenquellen erfolgt über einen Assistenten.
Abbildung 1: Die Anbindung von Datenquellen erfolgt über einen Assistenten.

Der Support steht per E-Mail oder Chat zur Verfügung. Der Nachteil der einfachen Anbindung von Datenquellen ist allerdings, dass bei Problemen nicht einfach eine Lösung gefunden werden kann, da es keine verschiedenen Optionen gibt und keine transparenten Möglichkeiten zu untersuchen, woran eine Verbindung scheitert. Allerdings gibt es hierfür den Support, der bei Problemen unterstützen kann. Hinzu kommt, dass Talend Bugs in dem Dienst schnell beseitigt und gleichzeitig die Datenquellen und -ziele regelmäßig erweitert.

Nachdem die Datenquelle ausgewählt wurde, erfolgt die Konfiguration der eigentlichen Verbindung. Hier sind Name oder IP-Adresse sowie der Port der Verbindung notwendig. Für jede Datenquelle lassen sich spezifische Optionen definieren, wie die Bezeichnung der Datenbank oder sichere Verbindungen wie SSL und SSH. Die Einstellungen sind während der Einrichtung verfügbar.

Abbildung 2: Anbinden von Datenbanken an Stitch am Beispiel von Microsoft SQL Server.
Abbildung 2: Anbinden von Datenbanken an Stitch am Beispiel von Microsoft SQL Server.

Sobald Datenquelle und Datenziel im Assistenten definiert sind, beginnt der Dienst mit der Integration der Daten. Die erste Übertragung dauert länger, da der Service zunächst alle Daten auslesen und in das Ziel importieren muss. Nach der ersten Übertragung arbeitet Stitch Data Loader mit einem inkrementellen Replikat der Daten. Dadurch können Analysten direkt auf aktuelle Daten aus verschiedenen Quellen zurückgreifen. Die Replikation erfolgt auf Basis eines Zeitplans.

Die Kosten für Stitch

Stitch Data Loader gibt es in den Editionen Standard, Advanced und Premium. Die Abrechnung erfolgt vor allem volumenbasiert. Bei fünf Millionen Datenzeilen kostet die Standard-Edition 100 US-Dollar/Monat, bei 100 Millionen Zeilen liegt der Preis bei etwa 750 US-Dollar. Wer mehr Funktionen benötigt und eine größere Menge an Daten verarbeiten möchte, kann die Advanced-Edition für 1.250 US-Dollar pro Monat buchen. Große Datenmengen lassen sich mit der Premium-Edition verarbeitet, die 2.500 US-Dollar pro Monat kostet. In der Preisübersicht des Dienstes sind die Informationen detailliert aufgelistet.

Wer den Dienst testen möchte, kann Stitch Data Loader 14 Tage kostenlos einsetzen. Es findet laut Talend und Amazon keine automatische Vertragsverlängerung statt. Dennoch sollte das Ende des Abonnements im Auge behalten werden. Für die Verwendung des Dienstes ist ein kostenloses Konto bei Stitch notwendig.

Erfahren Sie mehr über Datenverwaltung