ASDF - stock.adobe.com

Meinung

Datenintegration: Fünf Lösungen, die alle Hürden überwinden

Der Weg zur funktionierenden Datenintegration ist steinig: Datensilos und geringe Datenqualität sind nur einige der Hürden. Fünf Lösungen für fünf Hürden.

von

Stefan Müller, it-novum GmbH

Zuletzt aktualisiert: 11 Juli 2019

Daten werden erst durch Datenintegration wertvoll. Der Weg dorthin ist jedoch steinig: Datensilos, lange Ladezeiten und geringe Datenqualität sind nur einige der Hürden, die genommen werden müssen. Hinzu kommen die gesetzgeberischen Vorgaben der DSGVO. Der Artikel beschreibt Lösungen für 5 typische Datenintegrationsprobleme.

1. Von Datensilos und ihrer Beseitigung

Die meisten Unternehmensinformationen liegen isoliert vor und sind schwer zugänglich. Werden Daten getrennt in einzelnen Anwendungen abgelegt, sind Datensilos die Folge. Fehlt der Bezug zur restlichen Organisation und den übrigen Datenquellen, kann es aber auch keinen Kontext geben, um wichtige Erkenntnisse daraus zu ziehen. Deswegen gehören diese Datensilos aufgelöst.

Dabei muss man die Unterschiedlichkeit von Daten beachten: von strukturiert, semi-strukturiert bis zu unstrukturiert hat jede Datenart ihre eigenen Schwierigkeiten, was die Verarbeitung und Integration betrifft. Während Informationen aus SAP-Systemen zum Beispiel zum Typ strukturierte Daten gehören, sind Daten aus Logs, Sensoren und Videos semi- beziehungsweise unstrukturierte Daten.

Lösung: Data Pipelines in einer modernen Datenarchitektur

Bei der Extraktion, Aufbereitung und Analyse von strukturierten, semi-strukturierten und unstrukturierten Daten aus verschiedenen Systemen helfen Data Pipelines. Dabei müssen sie kontextualisiert werden.

Strukturierte Daten: Datenintegrationswerkzeuge für die Entwicklung von Data Pipelines erlauben einen flexiblen Zugriff auf strukturierte Informationen, egal, ob es sich dabei um ein ERP-, CRM- oder ein anderes operatives System handelt. Die Daten werden für die nachgelagerten Business-Intelligence-Applikationen optimiert und in einem Data Warehouse abgelegt.

Unstrukturierte Daten: Schätzungen zufolge liegen weltweit rund 80 Prozent der Daten in unstrukturierter Form vor. Geht es um ihre Integration, sollte eine Datenintegrationssoftware große Datenmengen durch Parallelisierung verarbeiten können. Ein leistungsstarkes ETL-Werkzeug ist zum Beispiel Pentaho Data Integration (PDI). Damit lassen sich Daten aus allen Arten von Quellsystemen laden, von Log-Daten über Fertigungssysteme bis hin zu SAP-Lösungen.

2. Von Ladezeiten und Ressourcenaufwand

Eine besondere Schwierigkeit ist das Laden von Daten während eines bestimmten Zeitraums. Um eine gute Performance garantieren zu können, müssen zunächst die Umgebungsvariablen identifiziert und dokumentiert werden. Geklärt werden muss daneben, ob die Schwierigkeiten tatsächlich Leistungsprobleme sind. Messbare Parameter helfen dabei, den Ist-Zustand für jeden konkreten Fall zu beschreiben, um nachvollziehen zu können, ob der Prozess durch die Verbesserungen wirklich effizienter geworden ist. Wichtig sind Kennzahlen wie die Gesamtladezeit, das Zeitfenster und der Zeitaufwand für jede Task.

Danach sollte man sich Gedanken über das weitere Prozedere machen: Lassen sich Tasks überspringen? Kann man Abläufe effizienter machen, indem bestimmte Daten nur noch monatlich statt wöchentlich neu geladen werden? Hier müssen die Stakeholder im Unternehmen eingebunden werden, zum Beispiel Application Manager, Softwareentwickler oder Hardware-Provider. Sie unterstützen bei der Auflösung möglicher Engpässe. Das Ziel ist es, mit jeder Änderung den Prozess nochmals zu analysieren bezüglich seiner Effizienz.

Lösung: Partielles Laden mit dem Delta-Mechanismus

Warum bei einem Update immer den kompletten Datensatz laden, wenn die meisten Informationen unverändert geblieben sind? Es reicht aus, nur das zu überschreiben, was sich geändert hat. Was einfach klingt, ist jedoch nicht so simpel umzusetzen.

Eine Lösung ist der Delta-Mechanismus, das partielle Laden von Daten. Dabei werden die Daten unverändert von ihrem Ursprungsort in das Data Warehouse geladen. Dort wird herausgefunden, wo die Änderungen zum letzten Datensatz sind (Delta-Bestimmung). Durch den parallelen Ablauf vieler Verarbeitungsschritte kann der Delta-Mechanismus auch sehr große Datenmengen, die täglich über 24 Stunden hinweg anfallen, über Nacht in nur drei bis vier Stunden verarbeiten.

3. Datenqualität: Von duplizierten, unvollständigen und inkonsistenten Daten

Mangelnde Datenqualität kostet Geld. Doppelte, unvollständige oder inkonsistente Daten sollten deshalb bereinigt werden. Wenn sich Informationen mehrfach im System befinden, ist meistens ein schlechter Integrationsprozess daran schuld. Doppelte Daten nehmen aber nicht nur wertvollen Speicherplatz ein, sondern können zu fehlerhaften Aussagen oder Handlungen führen.

Ist die Datenintegration mangelhaft, besteht das Risiko, dass Datensätze unbrauchbar werden, weil Informationen gelöscht wurden oder verloren gegangen sind. Liegen nicht alle Daten in einem einheitlichen Format vor, spricht man von inkonsistenten Daten. Dies passiert zum Beispiel durch schlecht verwaltete Konventionen für die Dateinamen oder durch die Vermischung verschiedener Datentypen, etwa die Angabe des Preises und der Temperatur zusammen in einem Datensatz. Solche Daten sind nicht lesbar für das System und damit nicht vorhanden.

Lösung: Automatische Integration

Wenn schon die Ursprungsdaten fehlerhaft sind, zieht sich dies durch den ganzen Datenprozess. Es ist deshalb wichtig, dass Unternehmen Daten sorgfältig aufnehmen und die Qualität der Datenquellen genau kontrollieren. Falsche oder unvollständige Angaben kann man zwar nie vollständig ausschließen, eine Datenqualitätssoftware hilft aber Qualitätsmängel zu erkennen. Die Software erkennt Felder, die nicht richtig oder ungenau ausgefüllt sind und kann die fehlende Information aus anderen Datenquellen abrufen und ergänzen.

Die meisten Probleme sind lösbar, indem man die anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Dafür muss festgelegt werden, wie die Informationen strukturiert werden sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Wichtig ist, dass die neuen Daten standardisiert benannt werden und nur in den festgelegten Formaten vorliegen. Mit einer solchen strukturierten und verbindlichen Datenablage tut sich die IT bei späteren Erweiterungen oder Aktualisierungen wesentlich leichter.

4. Streaming-Daten: Von den Grenzen konventioneller ETL-Tools

Um Informationen aus verschiedenen Quellen (zum Beispiel CRM, ERP und Fertigung) zu extrahieren und in das Data Warehouse zu laden, setzen viele Organisationen ETL-Anwendungen ein. Normale ETL-Tools wie das Complex Event Processing eigenen sich aber nicht dafür, mehrere Systeme mit Echtzeit-Daten-Feeds synchron zu halten. Data Warehouses eignen sich für historisch-deskriptive Analysen, nicht aber für die Verarbeitung von Streaming-Daten, die eine hohe Aktualisierungsgeschwindigkeit haben.

Lösung: Kombination aus Data Warehouse mit Streaming Engine

Eine starke Beschleunigung der Datenintegration mit Fast-Echtzeit-Verarbeitung lässt sich durch das Vorschalten einer Streaming Engine vor die ETL-Anwendung erreichen. Damit können auch Maschinendaten verarbeitet werden. Sollen die Daten auf einem Live-Dashboard angezeigt werden, muss eine Datenintegrationssoftware eingesetzt werden. Damit landen die Daten direkt aus dem ETL-Tool im Dashboard, ohne den Umweg über das Data Warehouse zu nehmen.

Sollen die Streaming-Daten auch im Data Warehouse liegen, ist es sinnvoll, sie aus der Streaming Engine zusätzlich in das Data Warehouse zu übertragen. Abhängig vom Datenaufkommen sollte das mehrfach täglich oder stündlich passieren.

5. Gesetzliche Regelwerke beachten

Viele Unternehmen müssen regulatorische Vorgaben einhalten und Meldepflichten erfüllen. Auch hierfür ist die Integration und Verarbeitung von Daten essentiell. Die hier eingesetzten Systeme liegen nicht nur in den Unternehmen selbst, sondern auch bei externen Partnern, Agenturen oder Behörden.

„Die meisten Probleme sind lösbar, indem man die anfallenden Daten strukturiert ablegt und sie automatisiert integriert.“

Stefan Müller, it-novum GmbH

Ein Beispiel: Vom Nachweis von Eigenmitteln über die Meldung von Großkrediten bis zur Vorlage korrekter Produktbewertungen müssen Banken eine Reihe von Meldepflichten erfüllen. Hinter einer Meldung liegen Prozesse, die Informationen aus verschiedenen Systemen integrieren, die meisten davon extern: Zentralbanken, Ratingagenturen, Schufa oder Marktdatenprovider wie Reuters oder Bloomberg.

Diese Datenintegrations- und -verarbeitungsprozesse sind komplex. Da die Regelwerke und ihre Komplexität weiter zunehmen, ist es längst unmöglich geworden, diese Prozesse manuell durchzuführen.

Lösung: Digitalisierung von Geschäftsprozessen

Zur Automatisierung können in IT-Abläufen Geschäftsprozesse, die große Mengen von Daten verarbeiten, abgebildet werden. Das senkt nicht nur das Fehlerpotenzial, sondern lässt die Verarbeitung großer Datenmengen in kurzer Zeit sowie die Erfüllung gesetzlicher Dokumentationspflichten zu.

Datenintegrationssoftware bildet einzelne Prozessschritte ab und integriert die involvierten Daten. Somit wird die Zeit für die Aufbereitung und Analyse der Daten stark verringert. Zum Beispiel müssen dadurch Compliance-Verantwortliche nicht jedes Mal Informationen neu verknüpfen, wenn sie einen Bericht erstellen, weil die Abläufe bereits eingerichtet sind. Es werden also nicht nur Ressourcen gespart, sondern die Prozesse gewährleisten auch, dass regulatorische Vorgaben eingehalten werden können.

Ein weiterführendes Whitepaper zum Thema mit einer ausführlichen Beschreibung der Probleme und ihrer Lösungen kann hier kostenlos herunterladen werden.

Über den Autor:
Stefan Müller ist Director Big Data Analytics bei der it-novum GmbH.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.

Nächste Schritte

Plattformen für die Datenintegration erweitern ETL-Software.

Moderne ETL-Tools für die Microservices-Datenintegration.

Kostenloses E-Handbook: Enterprise-Software für die Datenintegration.

Datenintegration: Fünf Lösungen, die alle Hürden überwinden

Der Weg zur funktionierenden Datenintegration ist steinig: Datensilos und geringe Datenqualität sind nur einige der Hürden. Fünf Lösungen für fünf Hürden.

1. Von Datensilos und ihrer Beseitigung

2. Von Ladezeiten und Ressourcenaufwand

3. Datenqualität: Von duplizierten, unvollständigen und inkonsistenten Daten

4. Streaming-Daten: Von den Grenzen konventioneller ETL-Tools

5. Gesetzliche Regelwerke beachten

Nächste Schritte

Erfahren Sie mehr über Data Governance

AWS Glue

Datenpipeline

Datentransformation und Datenanalyse mit Data Build Tool

Wie man eine universelle Big-Data-Pipeline aufbaut