Sikov - stock.adobe.com

Wie Data Lineage Tools Data-Governance-Richtlinien fördern

Organisationen können Data-Governance-Bemühungen unterstützen, indem sie die Herkunft der Daten in ihren Systemen verfolgen. Tipps für den Einsatz von Data Lineage Tools.

Das Wesen der Data Governance besteht darin, Unternehmensrichtlinien für Daten zu erstellen und sicherzustellen, dass die Mitarbeiter diese einhalten. Solche Richtlinien können eine Reihe von Absichten umfassen, einschließlich Richtlinien zum Datenschutz, zur Validierung und zur Nutzung von Daten.

Data Stewards und Data-Governance-Manager müssen Datenanforderungen von Geschäftsanwendern einholen und mit den Mitgliedern eines Data-Governance-Rates zusammenarbeiten, um sich auf gemeinsame Definitionen zu einigen, Datenqualitätskennzahlen zu spezifizieren, zugehörige Richtlinien zu formulieren und Ansätze zur Messung der Einhaltung zu entwickeln.

Es ist jedoch eine große Herausforderung, die Lücke zwischen der Definition von Data Governance-Richtlinien und deren Implementierung zu schließen. Die Richtlinien sollen die Kontrolle und Aufsicht über die Qualität von Datenbeständen in allen Geschäftsabläufen gewährleisten. Dennoch werden Datenmanager häufig mit kritischen Aufgaben im Bereich des Datenqualitätsmanagements betraut, ohne dass sie die entsprechende Schulung oder Technologie erhalten.

An dieser Stelle kommen Tools für Data Lineage, also Datenherkunft, ins Spiel. Metadaten zur Datenherkunft dokumentieren den Weg, den Datenobjekte durch die Systeme eines Unternehmens zurücklegen. Stammdatensätze können Datenanalysten und anderen Endanwendern helfen, die Daten, mit denen sie arbeiten, zu verstehen. Aber sie vereinfachen auch zwei wichtige Datenmanagementprozesse: die Ursachenanalyse von Datenqualitätsproblemen und Analyse, welche Auswirkungen Änderungen an Datensätzen in Quellsystemen haben.

Datenherkunft und Datenmanagement

Ohne eine Möglichkeit, festzustellen, wo Datenfehler in eine Datenmanagementumgebung eingeführt werden, ist es für Data Stewards und Datenqualitätsanalysten schwierig, diese zu erkennen und zu beheben. Das hat Konsequenzen: Wenn sich Datenfehler in Systemen weiter ausbreiten, kann die Organisation von inkonsistenten oder ungenauen Analysen und Berichten geplagt werden, die zu einer schlechten Entscheidungsfindung im Geschäftsbetrieb führen.

Im Prozess der Ursachenanalyse bieten Tools für Data Lineage Einblick in die Abfolge der Verarbeitungsstufen, durch die die zu prüfenden Daten fließen. Die Qualität der Daten kann in jeder Phase untersucht werden, so dass Data-Governance- und Datenqualitätsteams die Punkte finden können, an denen Datenfehler entstehen.

Rückwärts arbeitend, von wo aus ein Fehler zuerst identifiziert wird, kann ein Data Steward an früheren Punkten Kontrollen einfügen, um zu überwachen, ob die Daten damals den definierten Erwartungen entsprachen oder den Fehler übernahmen. Durch die Bestimmung der Verarbeitungsphase, in der die Daten bei der Eingabe konform waren, aber beim Verlassen fehlerhaft waren, können sich der Data Steward und andere an einem Data-Governance-Programm beteiligte Mitarbeiter auf die Beseitigung der Grundursache konzentrieren, anstatt nur die fehlerhaften Daten zu korrigieren.

Data Lineage Tools können ihnen auch bei der Durchführung von Auswirkungsanalysen helfen, um Probleme zu bewältigen, die durch Änderungen der Quelldatenformate und -strukturen in Datenmanagementumgebungen verursacht werden, die heute oft dynamischer sind als in der Vergangenheit.

Abbildung 1: Data Lineage

Wenn sich die Quelldaten ändern, kann es zu unbeabsichtigten Folgen im Downstream-Bereich kommen. Wenn ein Data Steward vom Zeitpunkt der Datenerstellung oder -erfassung vorwärts arbeitet, kann er sich auf die Dokumentation der Datenherkunft stützen, um Datenabhängigkeiten nachzuvollziehen und die Verarbeitungsstufen zu bestimmen, die von den Änderungen der Daten betroffen sind. Auf diese Weise können die Datenmanagement-Teams die betroffenen Stadien so umgestalten, dass die Änderungen berücksichtigt werden und sichergestellt wird, dass die Daten in verschiedenen Systemen konsistent bleiben.

Worauf bei Data Lineage Tools zu achten ist

Die manuelle Erfassung von Metadaten und die Dokumentation der Datenherkunft erfordert einen erheblichen Ressourcenaufwand. Außerdem ist sie fehleranfällig, was zu großen Problemen führen kann, insbesondere in Organisationen, die sich auf Datenanalysen zur Steuerung von Geschäftsvorgängen verlassen. Daher unterstützt es die Data-Governance-Bemühungen, nach Tools zu suchen, mit denen sich die Herkunft der Daten darstellen und automatisch unternehmensweit zuordnen lässt.

Während des Evaluierungsprozesses sollte man nach Tools suchen, die:

  • nativ auf eine breite Palette von Datenquellen und Datenprodukten zugreifen, die darin enthaltenen Metadaten erheben und sie für Data Governance-Anwendungen sammeln.
  • die erfassten Metadaten in einem zentralen Repository aggregieren;
  • Datentypen ableiten und gemeinsame Verwendungen von Referenzdaten mit Datenelementen aus verschiedenen Systemen abgleichen;
  • vereinfachte Präsentationen der aggregierten Metadaten für eine Vielzahl von Endbenutzern bereitstellen und gemeinsame Bemühungen zur Validierung der Metadatenbeschreibungen unterstützen;
  • die Ende-zu-Ende-Zuordnung des Datenflusses durch die Verarbeitungsströme Ihrer Organisation dokumentieren;
  • visualisierte Darstellungen der Datenherkunft generieren;
  • APIs für Entwickler enthalten, die sich zur Erstellung von Anwendungen eignen und Abstammungsdatensätze abfragen können.
  • einen invertierten Index erstellen können, um Datenelementnamen ihren Verwendungen in verschiedenen Verarbeitungsstufen zuordnen zu können.
  • eine Suchfunktion zur schnellen Verfolgung des Datenflusses von seinem Entstehungspunkt bis zu seinen nachgeschalteten Zielen bieten.
  • es Benutzern ermöglichen, Datenflüsse sowohl vorwärts als auch rückwärts zu überwachen.

Data-Lineage-Technologien

Es gibt eine Fülle von Produkten zu berücksichtigen. Tools zur Dokumentation und Verwaltung der Datenherkunft sind Teil der Datenmanagementplattformen, die von großen IT-Anbietern wie IBM, Informatica, Information Builders, Oracle, SAP und SAS Institute verkauft werden. Sie werden aber auch von kleineren Softwarelieferanten angeboten, die sich auf Datenintegration, -qualität und -management konzentrieren, wie zum Beispiel Adaptive, ASG Technologies, Collibra, Erwin, Infogix und Talend, sowie von Metadatenmanagementspezialisten wie Alex Solutions und Octopai.

Darüber hinaus sind in die Datenkatalogsoftware, die von Unternehmen wie Alation und Waterline Data entwickelt wurde, Data-Lineage-Funktionen integriert. Paxata, Trifacta und andere Anbieter von Data-Preparation-Lösungen integrieren ebenfalls Data-Lineage-Funktionen in ihre Produkte, ebenso wie verschiedene Anbieter von Business-Intelligence- und Analyseanwendungen.

Erfahren Sie mehr über Data Governance