Petrovich12 - Fotolia
Sieben Use Cases für Data-Catalog-Software in Unternehmen
Von der Modernisierung von Data Lakes bis hin zur Demokratisierung von Daten – ein Datenkatalog bietet viele Vorteile. Sieben Anwendungsfälle, wie Unternehmen davon profitieren.
Es gibt viele Möglichkeiten, wie Unternehmen von der Einführung eines Data Catalog, zu Deutsch Datenkatalog, profitieren können. Im Kern bieten Datenkataloge eine zentrale Möglichkeit, Informationen über Datenquellen im gesamten Unternehmen zu organisieren. Dies gewinnt zunehmend an Bedeutung, da Unternehmen nach Möglichkeiten suchen, Daten aus einer Vielzahl von Quellen sinnvoll zu nutzen, um das Geschäft zu verstehen, neue Analysen zu erstellen und KI-Anwendungen zu entwickeln.
Was ist ein Enterprise Data Catalog?
Das grundlegende Ziel eines Datenkatalogs ist die Erfassung und Speicherung von Metadaten, also Daten über Daten. Dies kann beinhalten, woher sie stammen, was sie beschreiben, wie sie verwendet wurden sowie ihre Qualität und Zuverlässigkeit. Datenkataloge indizieren diese Informationen, um die Daten leichter auffindbar zu machen.
„In vielerlei Hinsicht haben sich Datenkataloge in den letzten 20 Jahren nicht großartig verändert“, sagt Thomas LaRock, Head Geek bei SolarWinds, einem Anbieter von IT-Servicemanagement-Tools. Obwohl der Kerngedanke derselbe ist, sieht LaRock Änderungen bei den Datenermittlungstechniken, die neue Anwendungsfälle für Datenkataloge unterstützen können, einschließlich der Fähigkeit, potentiell sensible Daten zu identifizieren und zu klassifizieren.
Weitere Verbesserungen gibt es bei der Kennzeichnung von Daten mit Informationen über Datenverantwortliche, was die Anwendungsfälle für Datenkataloge, die eine teamübergreifende Zusammenarbeit erfordern, verbessert.
Warum ein Data Catalog wichtig ist
Alle modernen Business Intelligence Tools, Cloud-Plattformen und Data-Discovery-Anwendungen enthalten irgendeine Art von Datenkatalogisierungsfunktion, die eine grundlegende Sichtbarkeit innerhalb ihrer eigenen Umgebungen bietet.
„Aber selten werden alle Datenbestände in einer einzigen Umgebung oder einem einzigen Repository gespeichert und verwaltet“, sagt Chandra Papudesu, Vice President of Product Management, Catalog and Lineage bei Collibra, einem Unternehmen für Data Intelligence.
Ein zentraler Datenkatalog kann eine Möglichkeit sein, Datensilos aufzubrechen und ein System für die Daten im gesamten Unternehmen zu schaffen. Datenkataloge können auch eine Governance-Ebene über diese verschiedenen Datenquellen legen, um die Sicherheit und die Einhaltung verschiedener Datenschutzrichtlinien, zum Beispiel die EU-Datenschutz-Grundverordnung (EU-DSGVO) oder den California Consumer Privacy Act (CCPA), zu verbessern.
„Gut verwaltete Data Catalogs, die einen einfachen Zugriff auf vertrauenswürdige Daten mit Compliance kombinieren, können eine weit verbreitete und vertrauensvolle Akzeptanz innerhalb eines Unternehmens fördern, ohne dass man Angst vor Konsequenzen haben muss“, erläutert Papudesu.
Dadurch wird es für jeden, vom Geschäftsanwender bis zum Data Scientist, einfacher, Daten aller Art im gesamten Unternehmen zu entdecken, auszuwerten, ihnen zu vertrauen und auf sie zuzugreifen.
Im Folgenden zählen wir sieben Anwendungsfälle für Datenkataloge auf.
1. Personalisierte Medizin
Gesundheitssysteme sind überschwemmt mit patientenbezogenen Daten aus einer Vielzahl von Systemen, einschließlich Diagnosegeräten, Arztnotizen, Abrechnungssystemen und – in zunehmendem Maße – tragbaren Geräten, die alle auf unterschiedliche Weise gesammelt und verwaltet werden.
„Ein Datenkatalog befähigt Data Scientists, dem Krankenhaus neue Dienste anzubieten, und zeigt, wie er die Implementierung neuer Prozesse zur Einhaltung von Datenschutz- und Sicherheitsvorschriften unterstützt“, sagt Fernando Velez, Vice President und Chief Data Technologist bei Persistent Systems, einem IT- und Dienstleistungsunternehmen.
Velez arbeitet mit verschiedenen medizinischen Anbietern zusammen, um Anwendungsfälle für einen Datenkatalog für personalisierte Medizin zu entwickeln. Ein Projekt ist die Verbesserung der Erkennung des Brustkrebsrisikos einer Patientin. In diesem Projekt bietet ein Datenkatalog einen einzigen Referenzpunkt im gesamten Krankenhaus für bestehende Patientendaten sowie für neue Datensätze. Der daraus resultierende Datensatz zur Risikovorhersage wird ebenfalls katalogisiert, klassifiziert und mit einer Datenabfolge versehen.
2. Data-Lake-Modernisierung
Viele Organisationen speichern Daten aus zahlreichen Quellen im gesamten Unternehmen in Rohform in einem Data Lake mit nur einem Mindestmaß an Metadaten, die für die Data Governance erforderlich sind. Laut Papudesu kann dies die Akzeptanz der Daten im gesamten Unternehmen behindern, da es für die Benutzer schwierig ist, die Daten aus dem Data Lake zu finden, zu verstehen und darauf zuzugreifen.
Durch das Hinzufügen eines reglementierten Datenkatalogs zu den Daten können Business-Analysten und Data Scientists einfach auf die Daten zugreifen, wenn sie sie benötigen. Sie können auch sehen, woher die Daten stammen und wie sie sich verändern, wenn sie durch verschiedene Anwendungen wandern. Dies kann die Nutzung des Data Lake steigern, doppelte Datensätze reduzieren und Compliance-Risiken verringern.
3. Doppelte Datenausgaben eliminieren
Viele große Unternehmen kaufen ständig große Mengen an Daten von Drittanbietern für Werbe-, Marketing- und Kreditrisikomanagementzwecke.
„Aufgrund von organisatorischen Silos und dezentralisierten Datenbeschaffungsprozessen kaufen jedoch verschiedene Geschäftsbereiche dieselben Daten ein“, sagt Papudesu.
Ein Datenkatalog kann ein zentrales Repository und einen standardisierten Beschaffungsprozess für Daten von Drittanbietern bereitstellen, der es einfacher macht, eine vergleichende Analyse über alle externen Datensätze hinweg durchzuführen, um Redundanzen zu identifizieren. Außerdem kann er Datenmanagern helfen, Richtlinien und Vereinbarungen zur gemeinsamen Nutzung dieser Daten zu kodieren und automatisch durchzusetzen.
4. Cloud-Modernisierung
Im Zuge der COVID-19-Pandemie beschleunigen Unternehmen ihre Cloud-Migration. Eine Herausforderung besteht darin, dass viele Cloud-Dienste ihre eigenen Metadaten-Management-Tools mitbringen, die für jede Cloud oder jeden Dienst optimiert sind. Eine weitere Herausforderung ist, dass Unternehmen darauf achten müssen, wie und wo bestimmte Arten von sensiblen Datensätzen physisch gespeichert werden.
Papudesu sagt, dass er und sein Team beobachten, dass viele Unternehmen auf Datenkataloge zurückgreifen, um die Sichtbarkeit von Daten in On-Premises-, Cloud- und Hybrid-Umgebungen zu verbessern. Dieser Anwendungsfall des Datenkatalogs macht es auch einfacher, hochwertige Datensätze zu identifizieren, die für die Geschwindigkeit und Wiederverwendung auf der Grundlage von Nutzung und Abstammung priorisiert werden sollten. Ein Datenkatalog kann dabei helfen, die technische Abstammung von Daten zu verfolgen, um sicherzustellen, dass sie intakt und sicher sind und keine Daten während eines Umzugs verloren gehen.
5. Self-Service-Analysen
Einer der wichtigsten Anwendungsfälle für Datenkataloge ist die allgemeine Veröffentlichung der Daten im gesamten Unternehmen. In vielen Unternehmen sind die Daten über verschiedene Abteilungen verteilt und in unterschiedlichen Systemen gespeichert. Infolgedessen haben Unternehmen Schwierigkeiten, ihre Daten effektiv und effizient zu organisieren, zu pflegen und zu nutzen.
Thomas LaRockSolarWinds
Der Datenkatalog kann ein zentrales Portal für das Auffinden und den Zugriff auf Daten über diese Datensilos hinweg bieten. Dies macht es den Benutzern leicht zu verstehen, welche Daten verfügbar sind, woher sie kommen, wie sie verwendet werden und ob sie vertrauenswürdig sind.
Ein Datenkatalog kann es den Anwendern auch ermöglichen, die vertrauenswürdigen, vordefinierten und vorab genehmigten Daten zu finden, die sie zur Erledigung ihrer Aufgaben benötigen, ohne in der IT-Warteschlange zu warten. Dies kann die Produktivität erhöhen und die Zeit bis zum Erreichen von Erkenntnissen beschleunigen, da die Benutzer weniger Zeit mit der Suche nach Daten und mehr Zeit mit der Arbeit an Analysen und dem Austausch von Erkenntnissen verbringen.
6. Sensible Daten aufspüren
Laut LaRock ist der interessanteste Anwendungsfall für Datenkataloge die Entdeckung sensibler Daten, von denen ein Unternehmen nicht wusste, dass sie existieren. Kundendaten, Zahlungsinformationen und sogar im Klartext gespeicherte Passwörter werden manchmal in Systemen entdeckt, die Menschen vergessen haben.
„Das Letzte, was Sie wollen, ist, mit einer DSGVO-Strafe belegt zu werden, weil Sie keine Ahnung hatten, welche Daten Sie gespeichert haben“, sagt LaRock.
7. Verwaltung der Cloud-Ausgaben
Mit der Verlagerung von Unternehmen in die Cloud haben IT-Abteilungen Schwierigkeiten, Nutzungsmuster und Trends von Cloud-Diensten zu analysieren und zu verstehen.
„Es kann Dutzende bis Hunderte von Datenquellen für diese Informationen geben, was es schwer macht, sie zusammenzufügen und für jemanden zu identifizieren, der sie nutzen kann“, sagt Travis Rehl, Vice President of Product bei CloudCheckr, einem Anbieter von Cloud-Management-Tools.
Ein Datenkatalog kann es einfacher machen, diese Informationen zusammenzufügen, so dass sie für die Analyse der Geschäftskosten abgerufen und analysiert werden können. Ein Datenkatalog kann auch eine Übersetzungsebene für die Quelldaten einrichten, damit Benutzer geeignete Kostenvergleiche zwischen verschiedenen Cloud-Anbietern und -Diensten anstellen können.