Definition

Datenpflege (Datenkuratierung)

Was ist Datenpflege (Datenkuratierung)?

Datenpflege oder Datenkuratierung ist der Prozess des Erstellens, Organisierens und Pflegens von Datensätzen, damit sie für Informationssuchende zugänglich sind und genutzt werden können. Dazu gehören das Sammeln, Strukturieren, Indizieren und Katalogisieren von Daten für Benutzer in einem Unternehmen, einer Forschungseinrichtung oder der breiten Öffentlichkeit. Daten können kuratiert werden, um geschäftliche Entscheidungen, akademische Bedürfnisse, wissenschaftliche Forschung und andere Zwecke zu unterstützen.

Die Datenpflege ist Teil des Datenmanagementprozesses und wird manchmal in die Datenaufbereitung integriert, die Datensätze für die Verwendung in Business-Intelligence- und Analyse-Anwendungen bereitstellt. In einigen Unternehmen gibt es formelle Stellen für Datenkuratoren, in anderen können Datenmanager, Dateningenieure, Datenbankadministratoren, Datenwissenschaftler oder Geschäftsanwender diese Rolle ausfüllen.

Der Prozess der Datenpflege geht auf die jahrhundertealte Praxis der Auswahl, Organisation und Präsentation von Objekten als Teil von Kunst- oder Büchersammlungen zurück, zum Beispiel in Museen oder Bibliotheken. Der Begriff Kuratierung stammt aus der Antike und leitet sich vom lateinischen Wort curae ab, was so viel wie Sorge oder Pflege bedeutet – eine Bedeutung, die er heute noch hat, auch im Zusammenhang mit Daten.

Was ist der Sinn von Datenpflege?

Im geschäftlichen Sinne ist die Datenpflege eine Schlüsselkomponente einer Datenstrategie, da sie dazu beiträgt, dass das Unternehmen seine Daten sinnvoll nutzen und die datenbezogenen Vorschriften und Sicherheitsanforderungen einhalten kann.

Datenpflege erreicht diese Ziele, weil sie:

  • Daten auffindbar und zugänglich macht,
  • die Möglichkeit bietet, Informationen über die Herkunft der Daten zurückzuverfolgen,
  • Daten nach verschiedenen Merkmalen klassifiziert, zum Beispiel danach, ob sie öffentlich, geschützt oder urheberrechtlich geschützt sind.

Datenpflege konzentriert sich zum Teil auf das Verstehen und Organisieren von Metadaten, das heißt von Details, die Informationen über die Daten selbst liefern. Bei der Datenpflege geht es also darum zu verstehen, wo und wie Daten generiert werden und wo sie gespeichert sind. Dazu gehört die Erstellung durchsuchbarer Indizes für die zu kuratierenden Datensätze. In vielen Fällen wird auch ein Datenkatalog erstellt.

Diese Funktionen verschaffen einen Überblick über die Daten, die in einem Unternehmen zur Verfügung stehen – eine wichtige Voraussetzung, da das Volumen der erzeugten und gesammelten Daten ständig wächst. Diese Transparenz trägt wiederum zur optimalen Nutzung der Daten bei, da BI- und Data-Science-Teams, Führungskräfte und andere Mitarbeiter die Daten finden und abrufen können, die sie für Analyse-Anwendungen und betriebliche Entscheidungen benötigen.

Eine effektive Datenpflege schafft mehr Vertrauen in die Daten, wenn die Benutzer wissen, dass sie genau, zuverlässig und aktuell sind. Das schafft wiederum mehr Vertrauen in die Richtigkeit datengestützter Entscheidungen und beschleunigt auf Datenanalysen basierende Geschäftsprozesse und Innovationen.

Welche Bedeutung hat Datenpflege?

In vielen Unternehmen werden Daten von einer wachsenden Zahl von Quellsystemen erzeugt, von herkömmlichen Geschäftsanwendungen bis hin zu neuen Edge-Computing-Geräten, die mit dem Internet der Dinge verbunden sind. Big-Data-Systeme speichern oft eine Kombination aus strukturierten, unstrukturierten und semistrukturierten Daten für die Analyse. Weitere Daten werden aus verschiedenen externen Quellen für die Unternehmensnutzung gesammelt.

Indem sie Ordnung in den ansonsten chaotischen Prozess der Datenerfassung und -nutzung bringt, trägt die Datenpflege dazu bei, dass Unternehmen nicht von der explosionsartigen Zunahme des Datenvolumens und der Vermehrung der Datenquellen überwältigt werden. Andernfalls kann ein Unternehmen den Überblick über Datensätze verlieren, und die Benutzer sind nicht in der Lage, die Informationen zu erhalten, die sie für ihre Arbeit benötigen.

Letztendlich kann dies zu einer Verschwendung von Ressourcen führen, da die Benutzer mehr Zeit damit verbringen, nach Daten zu suchen und sie zu verstehen. Es kann auch zu ungenauen Analysen, fehlerhaften Geschäftsentscheidungen, verpassten Chancen und anderen Problemen führen, welche die Unternehmensleistung beeinträchtigen.

Datenpflege optimieren
Abbildung 1: Dies sind Fragen, die im Rahmen der Datenpflege gestellt werden sollten.

Was sind die wichtigsten Schritte der Datenpflege?

Der Prozess der Pflege oder Kuratierung von Datensätzen umfasst eine Vielzahl von Aufgaben, die in die folgenden Hauptschritte unterteilt werden können:

  • Identifizieren der Daten, die für die geplanten Analyse-Anwendungen benötigt werden.
  • Mapping der Datensätze und Katalogisierung der mit ihnen verbundenen Metadaten.
  • Sammeln der Datensätze.
  • Einlesen der Daten in ein Data Warehouse, einen Data Lake oder ein anderes System.
  • Bereinigen der Daten, um Inkonsistenzen, Anomalien und Fehler wie ungültige Einträge, fehlende Werte, doppelte Datensätze und Abweichungen in der Schreibweise zu beheben.
  • Modellieren, strukturieren und transformieren der Daten, um sie für bestimmte Analysezwecke zu formatieren.
  • Erstellen von durchsuchbaren Indizes der Datensätze, um sie den Benutzern zur Verfügung zu stellen.
  • Pflege und Management der Daten entsprechend den laufenden Analyse-Bedürfnissen und den Anforderungen an Datenschutz und Datensicherheit.

Während die Bewahrung von Datensätzen eines der Hauptziele der Datenpflege ist, kann sie auch einen letzten Schritt beinhalten: Archivierung und Löschung von Datensätzen, wenn sie nicht mehr benötigt werden, veraltet sind oder aufgrund von Datenschutzbestimmung wie der EU-DSGVO gelöscht werden müssen.

Was ist ein Datenkurator und was macht er?

Wie bereits erwähnt, haben einige Unternehmen, insbesondere große Unternehmen mit ausgereiften oder umfangreichen Analyseprogrammen, Stellen für Datenkuratoren geschaffen, die für alle Aufgaben im Zusammenhang mit der Pflege von Daten zuständig sind.

Ein Datenkurator identifiziert in der Regel die benötigten Datensätze und stellt sicher, dass sie gesammelt, bereinigt und nach Bedarf umgewandelt werden. Der Kurator ist auch dafür verantwortlich, dass die Datensätze und Informationen über sie, wie zum Beispiel Metadaten- und Lineage-Dokumentation, den Nutzern zur Verfügung gestellt werden.

Das Hauptziel des Datenkurators besteht darin, sicherzustellen, dass die Benutzer auf die richtigen Daten für Analysen und Entscheidungen zugreifen können. Kuratoren arbeiten auch mit anderen Mitgliedern des Datenmanagementteams und den IT- und Sicherheitsteams zusammen, um:

  • die erforderlichen Datenpipelines aufzubauen,
  • sicherzustellen, dass die Pipelines zuverlässig und sicher sind, und
  • geeignete Standards für Datenmanagement, Datenschutz und Datensicherheit festzulegen und einzuhalten.

Eine Organisation kann mehrere Datenkuratoren haben: einige, die für Datensätze in bestimmten Bereichen zuständig sind, und einen oder mehrere, die als leitende Kuratoren für das Metadatenmanagement und die Gesamtleistung der Datenpflege verantwortlich sind.

Diese Definition wurde zuletzt im Juni 2024 aktualisiert

Erfahren Sie mehr über Data Governance