Africa Studio - stock.adobe.com

Datenkataloge: Wie Unternehmen die passende Software finden

Die Optionen für Datenkataloge variieren je nach Anbieter. Bevor sich ein Unternehmen für eine Software entscheidet, sollte es zuvor seine Anforderungen kennen.

Datenkataloge (Data Catalog) sind zu einem wesentlichen Bestandteil der Datenmanagementstrategie von Unternehmen geworden. Sich für einen Anbieter zu entscheiden, kann allerdings schwierig sein. Man muss die verschiedenen Optionen auf dem Markt verstehen und wissen, welche Prioritäten man setzen sollte, bevor man sich für einen Anbieter entscheidet.

Datenkataloge sind Metadatenmanagement-Tools, die Unternehmen dabei helfen, große Datenmengen zu finden und zu verwalten. Die Idee hinter Datenkatalogen ist, Metadaten an einem Ort zu zentralisieren und einen vollständigen Überblick über die Datenbanken eines Unternehmens zu erhalten. Er enthält auch Informationen über den Speicherort jedes einzelnen Datenpunkts.

Bevor es sich an Anbieter wendet, muss ein Unternehmen den Markt verstehen und wissen, welche Bedürfnisse und Wünsche es hat. Verwenden Sie diesen Datenkatalogvergleich, um zu entscheiden, was am besten mit den Daten Ihrer Organisation funktioniert.

Warum Datenkataloge unverzichtbar sind

Laut Joe Maguire, Senior Research Director bei Gartner, sind Datenkataloge für Unternehmen notwendig, um drei Hürden zu bewältigen.

Die erste treibende Kraft für die Einführung von Datenkatalogen ist, dass die Verwaltung von Metadaten schwieriger geworden ist. Die Datenarchitekturen sind heute komplex und die Datenmengen sind zu groß für manuelle Ansätze zum Sammeln und Beschreiben von Metadaten.

„Selbst Technologien, die vorgeben, Architekturen zu vereinfachen, wie Data Lakes, die eine einzige architektonische Komponente für die Speicherung aller Arten von Daten bieten, können das Metadatenmanagement erschweren“, sagt Maguire.

Während die Datenmenge wachsen, haben einige Unternehmen ihr Metadatenmanagement nicht skaliert. „Durch die Vernachlässigung von Metadaten in Data Lakes wurde der Begriff ‚Datensumpf‘ geprägt, um einen Data Lake zu beschreiben, dessen Daten unbekannt, schlecht organisiert oder missverständlich sind“, erklärt der Analyst.

Der zweite Faktor ist, dass in dem Maße, wie Unternehmen Self-Service-Analysen und Data Science betreiben, der Bedarf an Data Governance steigt. Dies hat auch zu einer höheren Nachfrage nach Datenkatalogen geführt. Metadaten sind die Basis für Data Governance sowie Datenkataloge und ermöglichen einen einfacheren Zugriff auf Metadaten.

Der dritte Faktor ist, dass sich die Lösungen bewährt haben. Die Angebote sind vielfältiger geworden und für Unternehmen, die Data Governance und Metadatenmanagement benötigen, hilfreich. Funktionen für automatische Metadatenerkennung, Datenabfolge und Unterstützung von Data-Stewardship-Aktivitäten machen Datenkataloge für Unternehmen attraktiv.

Kategorien von Datenkatalogen

Nach Angaben von Maguire gibt es einerseits Unternehmensdatenkatalogen (Enterprise Data Catalog) und andererseits eingebetteten Datenkatalogen (Embedded Data Catalog).

„Unternehmensdatenkataloge existieren, um Metadaten aus verschiedenen Metadatensilos zu konsolidieren“, sagt er. „Eingebettete Datenkataloge sind Sets von Metadatenmanagementfunktionen, die innerhalb anderer Produkte bereitgestellt werden.“

Eine Option für einen Unternehmensdatenkatalog kann ein Datenbankmanagementsystem (DBMS), ein Data Warehouse oder eine Business-Intelligence-Plattform sein. Eingebettete Datenkataloge bilden die Metadatensilos, die durch Unternehmensdatenkataloge konsolidiert werden sollen.

Im Folgenden finden Sie eine Vergleichsliste der gängigsten Datenkatalogoptionen.

Eigenständige Datenkataloge. Generalistisch, unabhängig und geschäftsorientiert, sind diese Datenkataloge für den breiteren Einsatz in Datenmanagement, Analytik und Data Governance gedacht. Diese Option eignet sich für eine Organisation, die Daten für mehrere Anwendungsfälle katalogisieren muss. Zu den Anbietern, die eigenständige Datenkataloge anbieten, gehören Alation, Collibra, Informatica und Data.World.

Metadatenmanagement-Tools mit Katalogfunktionen. Moderne Datenkataloge richten sich an Datenmanager und Datenanalysten, die Aufgaben der Metadatenverwaltung automatisieren können. Gartner warnte in einem kürzlich erschienenen Bericht über erweiterte Datenkataloge, dass einige Anbieter ihre Metadatenmanagement-Tools als Datenkataloge umbenannt haben. Recherchieren Sie, um sicher zu sein, dass Sie in die richtigen Tools investieren.

Data Lake Tools mit Datenkatalogfunktionen. Da Unternehmen weiterhin Data Lakes aufbauen, müssen diese durchsuchbar und die Daten wiederverwendbar sein. Dies hat zu einem Anstieg der Anbieter geführt, die einen Datenkatalogaspekt in ihr Angebot aufnehmen. Zaloni und Cloudera Navigator fallen beide in diese Kategorie. Organisationen, die vor der Einführung von Data Lakes zurückschrecken, sollten sich an diesen Anbietern orientieren.

Sobald Ihr Unternehmen weiß, ob ein unternehmensweiter oder eingebetteter Datenkatalog am sinnvollsten ist, können Sie mit der Suche nach Funktionen fortfahren. Ein guter Datenkatalog sollte eine Reihe von Funktionen zur Verfügung stellen.

Was sollte ein guter Datenkatalog bieten?

Als Unternehmen muss man selbst entscheiden, welches Angebot für die eigenen Daten am relevantesten ist. Viele Datenkataloge haben bestimmte gemeinsame Merkmale, die zunächst auf ihre Qualität hin beurteilt werden müssen.

Abbildung 1: Datenkataloge haben zahlreiche Funktionen, die sie für das moderne Unternehmen unverzichtbar machen.
Abbildung 1: Datenkataloge haben zahlreiche Funktionen, die sie für das moderne Unternehmen unverzichtbar machen.

Ein Datenkatalog ist nur so nützlich, wie er sich durchsuchen lässt. Ohne flexible Such- und Filteroptionen werden Benutzer nicht in der Lage sein, die Datensätze zu finden, die sie für Data Engineering und analytische Zwecke benötigen. Ein Datenkatalog muss auch Metadaten aus einer Vielzahl von verbundenen Datenbeständen sammeln. Er muss Automatisierung und Datenintelligenz bieten, um die manuellen Aufgaben zu erledigen, die mit Datenkatalogen verbunden sind. Künstliche Intelligenz (KI) und Machine Learning (ML) haben die Fähigkeit, Daten durch Empfehlungen zu ergänzen.

Ein Datenkatalog sollte die Fähigkeit haben, sich mit verschiedenen Komponenten der Datenarchitektur innerhalb einer Organisation zu verbinden. Maguire sagt, dass man sich einen Unternehmensdatenkatalog wie ein Data Warehouse für Metadaten vorstellen kann. Ein Datenkatalog konsolidiert Metadaten aus Metadatensilos, ähnlich wie Data Warehouses Daten aus Datensilos konsolidieren.

Ein Datenkatalog lebt von seiner Fähigkeit, Konnektoren bereitzustellen, die Metadaten aus verschiedenen Komponenten wie einem DBMS, BI-Tools und Data Warehouses sammeln können. Datenkataloge unterstützen verschiedene Formen von Metadaten in diesen vier Typen:

  • Technische Metadaten beschreiben Datenmodelle, Speicherschemata, Dateilayouts und APIs.
  • Operative Metadaten beschreiben die Datenabfolge, die Leistung und die Ausgabe von Protokolldateien bei verschiedenen Operationen auf Daten.
  • Geschäftliche Metadaten fallen in zwei Kategorien. Die eine Kategorie sind Metadaten, die das Geschäft beschreiben, wie zum Beispiel der Inhalt des Geschäftsdatenglossars. Die andere beschreibt, wie geschäftliche Rollen, zum Beispiel Datenadministratoren, Datenverwahrer, Self-Service-Analysten, mit Datenbeständen interagieren, zum Beispiel welcher Datenadministrator für einen bestimmten Datenbestand verantwortlich ist.
  • Soziale Metadaten stellen Wissen dar, wie zum Beispiel Zertifizierungen oder andere benutzergenerierte Anmerkungen zu Elementen im Datenkatalog.

Anbieter von Datenkatalogsoftware

Es gibt zahlreiche Optionen auf dem Markt sowohl für Unternehmens- als auch eingebettete Datenkataloge, und diese Optionen haben oft ähnliche Funktionen und überschneidende Fähigkeiten. Hier ist eine kurze Übersicht über die Top-Datenkatalogoptionen.

Alation Data Catalog. Alation ist ein eigenständiges Datenkatalog-Tool, das KI nutzt, um den Kontext von Daten innerhalb Ihres Unternehmens zu erfassen. Es gilt als eine einfach zu bedienende Option für alle Mitarbeiter.

Qlik Catalog. Der Datenkatalog von Qlik verfügt ebenfalls über automatisierte Datenaufbereitung und Metadaten-Tools, die bei der Transformation von Rohdaten helfen. Außerdem verfügt er über einen Datenmarktplatz, der es Anwendern erlaubt, nach Datensätzen zu suchen und diese zu veröffentlichen.

Cloudera Data Catalog. Der Datenkatalog von Cloudera ermöglicht es Anwendern, ihre Daten zu entdecken, zu dokumentieren und zu überwachen. Gleichzeitig erlaubt dieses Angebot den Anwendern, den Zugriff zu auditieren und sensible Informationen vor denen zu schützen, die sie nicht sehen sollen.

Collibra Data Catalog. Bei dieser Option handelt es sich um einen weiteren eigenständigen Datenkatalog, der mit Blick auf geschäftliche Endanwender entwickelt wurde. Er ist ein durchsuchbares Repository, welches das Auffinden und Verstehen von Daten erleichtert. Es ermöglicht Administratoren außerdem, Rollen und Verantwortlichkeiten zu dokumentieren.

IBM Watson Knowledge Catalog. Dies ist ein offener Datenkatalog mit künstlicher Intelligenz, der sowohl die Governance als auch die Daten modelliert. Diese Option bietet Anwendern Unterstützung für Datenvirtualisierung in Echtzeit, dynamische Datenmaskierung und automatische Metadatengenerierung.

Oracle Cloud Infrastructure. Das Angebot von Oracle verfügt über eine Such- und Erkundungsoption, die es Benutzern ermöglicht, Daten aus einer Vielzahl unterschiedlicher Quellen durch vielfältige Such- und Filterfunktionen zu finden und technische Metadaten über Datenbestände zu sammeln.

Erfahren Sie mehr über Data Governance