Wie man einen Datenkatalog erstellt: zehn wichtige Schritte
Ein Datenkatalog hilft, Datenbestände zu erkunden, relevante Daten zu finden und deren Bedeutung zu verstehen. Hier sind zehn wichtige Schritte für die Erstellung eines Katalogs.
Der Aufbau eines Datenkatalogs ist für viele IT- und Datenmanagement-Teams ein wichtiges Projekt. Es wird oft in Verbindung mit Programmen zu Data Governance und Metadatenmanagement verbunden.
Unternehmen sollten jedoch ein Datenkatalogprojekt nicht in Angriff nehmen, ohne die Meinung der Geschäftsanwender einzuholen. Außerdem sollten sie eine Reihe weiterer Schritte planen, die Teil des Prozesses sein müssen.
Diese Schritte werden im Folgenden näher erläutert. Bevor wir uns jedoch mit der Erstellung eines Datenkatalogs befassen, definieren wir zunächst, was ein Datenkatalog ist. Außerdem skizzieren wir die wichtigsten Funktionen, die Kataloge bieten und diskutieren, warum sie zu einer Kernkomponente moderner Datenmanagementumgebungen geworden sind.
Was ist ein Datenkatalog?
Kurz gesagt ist ein Datenkatalog eine Referenzanwendung, die es Geschäftsanwendern, Datenwissenschaftlern, Business-Intelligence-Analysten, Datenmanagern und anderen Mitarbeitern ermöglicht, Datensätze zu erkunden, ihren Inhalt zu verstehen und mit anderen zusammenzuarbeiten sowie Wissen über Datenbestände auszutauschen. Im Idealfall hilft ein Datenkatalog dabei, relevante Daten für die Nutzung in operativen und analytischen Anwendungen selbständig zu finden und darauf zuzugreifen.
Ein Datenkatalog sammelt Metadaten aus Datenbanken, Data Warehouses, Data Lakes, Business-Intelligence-Systemen und anderen Quellen und nutzt diese Metadaten, um ein durchsuchbares Inventar von Datenbeständen zu erstellen. Ein solcher Katalog bietet auch einen zentralen Bezugspunkt für die Verwaltung von Unternehmensmetadaten, die er schneller und effektiver als ältere Systeme zum Metadatenmanagement handhaben kann.
Viele Unternehmen ergänzen ihre Datenkataloge mit anderen Metadaten-Tools. Dazu gehören insbesondere Geschäftsglossare und Datenwörterbücher, die den Benutzern zusätzliche Informationen zum Verständnis der Daten und ihres geschäftlichen Kontextes liefern.
Warum sind Datenkataloge wichtig?
Ohne einen Datenkatalog bleiben nützliche Daten oft vor den Endbenutzern verborgen. Da Unternehmen immer mehr Daten sammeln, sind diese in der Regel in verschiedenen Datenspeichern verstreut. Wenn Business- und Analytics-Anwender relevante Daten nicht finden können, sind geschäftliche Operationen und Analyseinitiativen weniger effektiv. Das ist ein großes Problem, da Unternehmen zunehmend datengesteuerte Geschäftsentscheidungen treffen wollen und müssen.
Datenkataloge unterstützen dabei, dieses Problem zu beseitigen, indem sie eine einheitliche Ansicht der Datenbestände mit integrierten Such- und Data-Discovery-Funktionen bieten. Darüber hinaus können sie bestimmte Aspekte des Datenmanagementprozesses automatisieren. Kommerzielle Datenkatalog-Tools verschiedener Anbieter nutzen beispielsweise künstliche Intelligenz (KI) und Machine-Learning-Technologien, um Datenprofile zu erstellen, die Datenqualität zu prüfen, Datensätze zu kuratieren und andere Aufgaben zu erledigen.
Mechanismen zur Durchsetzung von Data-Governance-Richtlinien sowie Datensicherheits- und Datenschutzkontrollen können ebenfalls in Datenkataloge eingebettet werden, um sicherzustellen, dass die Daten geschützt sind und ordnungsgemäß verwendet werden.
Die wichtigsten Schritte zum Aufbau eines Datenkatalogs
Dies sind die zehn wichtigsten Schritte, die bei der Planung und Erstellung eines Datenkatalogs zu beachten sind.
1. Dokumentieren Sie den Wert des Metadatenmanagements für die Data Governance
Erfolgreiche Data-Governance-Programme werden sowohl durch geschäftliches als auch durch technisches Metadatenmanagement unterstützt. Metadaten geben dem Inhalt von Datensätzen einen Kontext und liefern Informationen, welche die Daten innerhalb eines Unternehmens verständlich und nutzbar machen. Die professionelle Verwaltung von Metadaten hilft Unternehmen, ihre Daten zu managen, die Datenqualität zu verbessern und die betriebliche Effizienz durch die Umsetzung von Datenrichtlinien, Praktiken und Standards zu steigern. Die Dokumentation dieser erwarteten Vorteile kann ein wichtiger Teil des Business Case für einen Datenkatalog sein.
2. Legen Sie die Verwendungszwecke der verschiedenen Metadaten-Tools fest
Obwohl die Begriffe Datenkatalog, Geschäftsglossar und Datenwörterbuch (Data Dictionary) manchmal synonym verwendet werden, sind sie nicht dasselbe. Ein Geschäftsglossar definiert die in einem Unternehmen verwendeten Geschäftsbegriffe und stellt eine maßgebliche Quelle für deren Verständnis dar. Ein Datenwörterbuch hingegen liefert technische Informationen über Daten.
Dazu gehören zum Beispiel die Eigenschaften von Attributen wie Datentyp, Länge, gültige Werte, Standardwerte, Beziehungen zu anderen Datenfeldern, Datentransformationsregeln, Geschäftsregeln und Einschränkungen. Wörterbücher unterstützen die Verwendung von physischen Metadaten. Diese enthalten Details darüber, wo sich die Daten befinden und wie sie gespeichert sind. Geschäftsglossare sind auf die geschäftlichen Aspekte des Datenmanagement ausgerichtet, während Datenwörterbücher die Domäne der technischen Datenmanager sind. Ein Datenkatalog kann sowohl von geschäftlichen als auch von technischen Datenmanager verwendet werden, da er Aspekte der beiden anderen Werkzeuge enthält.
3. Entwerfen Sie ein Fachbereichsmodell für Ihre Daten
Ein guter Datenkatalog orientiert sich an der geschäftlichen Nutzung der Daten – und nicht nur an der technischen Implementierung der Systeme. Ein Fachbereichsmodell oder Subject Area Model (SAM) definiert die verschiedenen Fachgebiete für die Daten eines Unternehmens und die darin enthaltenen Geschäftskonzepte. Es zeigt dann den Geschäftsanwendern, wo sich die Daten befinden, ohne dass sie durch Anwendungen, Dateien oder Datenbanken eingeschränkt werden. Das SAM dient damit als Grundlage für Ihre Datenarchitektur, und sowohl der Datenkatalog als auch das Geschäftsglossar sollten auf ihm basieren.
4. Erstellen Sie ein Geschäftsglossar
Die Mitglieder des Data-Governance-Teams und die Verantwortlichen für die Geschäftsdaten sollten gemeinsam das Geschäftsglossar entwerfen und es anschließend mit Daten füllen. Grundsätzlich sollte ein Unternehmen ein unternehmensweites Geschäftsglossar haben und nicht für jeden Funktionsbereich oder – noch schlimmer – jede Anwendung ein eigenes Glossar.
Ein robustes Geschäftsglossar für das gesamte Unternehmen ist ein wesentlicher Bestandteil eines effektiven Datenmanagement und des Managements von Metadaten: Es kann Inhalte für die Verwendung im Datenkatalog liefern. Die Verantwortlichen für die Geschäftsdaten müssen an der Erstellung des Glossars beteiligt sein, da sie die Daten ihres Fachbereichs und die damit verbundenen Business-Metadaten am besten kennen.
5. Erstellen Sie ein Datenwörterbuch
Das Datenwörterbuch sollte Beschreibungen und Zuordnungen aller Datentabellen oder -dateien und aller zugehörigen Metadaten enthalten. Es bildet dann die Grundlage für die Aufnahme der Metadaten in den Datenkatalog. Auch hier sind die Verantwortlichen für die Geschäftsdaten von entscheidender Bedeutung, da sie Leitlinien für die im Datenkatalog zu verwendenden Business-Metadaten bereitstellen – nach Quelle, Konzept und Themenbereich.
6. Suchen Sie Metadaten aus Datenbanken und anderen Datenquellen
Datenkataloge verwenden Metadaten, um Datentabellen und -dateien für Benutzer zu identifizieren. Ein Katalog durchsucht die Datenbanken des Unternehmens und andere Datenbestände und lädt die zugehörigen Metadaten in sein Inventar der Datenbestände. Bevor ein Unternehmen mit dem Aufbau eines Datenkatalogs beginnt, müssen die Quellen für die Metadaten identifiziert und erfasst werden. Dies ist ein wichtiger Schritt und erfordert – wie die beiden vorangegangenen Punkte – ein solides Datenmanagementprogramm. In diesem Fall sind Datenmanager erforderlich, die einen Einblick in die zu verwendenden Datenquellen geben.
7. Erstellen Sie Datenprofile zur Bereitstellung von Statistiken für Benutzer
Profile sind informative Zusammenfassungen, die den Benutzern eines Datenkatalogs die Metadaten erklären. Das Profil einer Datenbank enthält zum Beispiel oft die Anzahl der Tabellen, Dateien und Zeilen. In einem Geschäftsglossar würde sich das Datenprofil auf die geschäftlichen Metadaten und ihre Verwendung im gesamten Unternehmen durch die Datenmanager und Anwender konzentrieren.
8. Identifizieren Sie Beziehungen zwischen Datenquellen
Suchen Sie verwandte Daten in mehreren Datenspeichern und integrieren Sie diese Informationen in den Datenkatalog, damit die Benutzer die Beziehungen verstehen können. Ein Datenanalyst benötigt zum Beispiel konsolidierte Kundendaten für seine Analyseanwendung. Mit Unterstützung des Datenkatalogs und des Datenwörterbuchs kann der Analyst beispielsweise feststellen, dass fünf Dateien in fünf verschiedenen Systemen relevante Daten enthalten.
9. Erfassen Sie Informationen zur Datenherkunft
ETL-Tools (Extrahieren, Transferieren und Laden) werden verwendet, um Daten aus Quellsystemen zu extrahieren, zu transformieren und zu bereinigen und sie dann in ein Zieldatenverzeichnis zu laden. Beim Aufbau eines Datenkatalogs enthalten die während des ETL-Prozesses gesammelten Metadaten eine Dokumentation der Herkunft der Daten (Data Lineage), des Datenflusses durch die Systeme und andere Informationen.
Die Datenherkunft hilft Geschäftsanwendern, die Datenbestände in einem Katalog zu verstehen. Sie ermöglicht es auch Datenmanagern und Analytikern, Datenfehler durch Untersuchung des Datenflusses bis zu ihrer Ursache in den Quellsystemen zurückzuverfolgen.
10. Optimieren Sie den Katalog für die Nutzung durch Anwender
Die meisten Datenbanken und Dateisysteme sind für die Nutzung durch die IT-Abteilung konzipiert. Datenkataloge und Geschäftsglossare sollten sowohl für Datenkonsumenten – wie Geschäftsanwender und Datenanalysten – als auch für technische Anwender konzipiert sein. Auch hier sollte ihre Struktur auf dem Fachbereichsmodell basieren, das Sie zu Beginn des Prozesses entworfen haben. Darüber hinaus sollten diese Tools über PCs, Tablets und Smartphones zugänglich sein. Ein Datenwörterbuch hingegen kann aufgrund des technischen Charakters seines Inhalts nach Funktionsbereichen und Anwendungen gegliedert werden.
Best Practices für die Erstellung eines Datenkatalogs
Die Erstellung eines Datenkatalogs, Geschäftsglossars und Datenwörterbuchs und die anschließende Sammlung, Organisation und Pflege von Metadaten sind Aufgaben, an denen sowohl Teams aus der IT als auch den Geschäftsbereichen beteiligt sein sollten. Auf diese Weise wird sichergestellt, dass sich die Metadaten auf die Bedürfnisse der Geschäftsanwender konzentrieren und eine konsistente Verwaltung der Daten im gesamten Unternehmen ermöglicht wird.
Im Folgenden finden Sie einige weitere Best Practices für Datenkataloge, die Unternehmen beachten sollten:
- Beziehen Sie Benutzerrechte, Nutzungsüberwachung, die Kennzeichnung sensibler Daten und andere Maßnahmen zum Schutz der Daten und der Datensicherheit ein.
- Ermöglichen Sie die Zusammenarbeit der Mitarbeiter durch Funktionen wie Datenbewertungen und -kommentierung und durch Chats mit anderen Katalogbenutzern.
- Entwickeln Sie ein Schulungsprogramm für Endbenutzer, um sicherzustellen, dass sie mit dem Datenkatalog vertraut sind und ihn effektiv nutzen können.
- Erstellen Sie einen Prozess, um den Katalog auf dem neuesten Stand zu halten, wenn sich Datenbestände und Geschäftsanforderungen ändern.
Eine effektive Planung, Entwicklung und Implementierung eines Datenkatalogs kann das Metadatenmanagement in die Geschäftsabläufe einbinden und einen dauerhaften Geschäftswert schaffen. Ein solcher Katalog fördert ein besseres Verständnis der Datenbestände Ihres Unternehmens – und erleichtert es den Mitarbeitern, diese zu finden, darauf zuzugreifen und zu nutzen.