Datenqualität
Datenqualität ist ein Maß für den Zustand von Daten auf der Grundlage von Faktoren wie Genauigkeit, Vollständigkeit, Konsistenz, Zuverlässigkeit und Aktualität der Daten. Die Messung der Datenqualität kann Unternehmen dabei unterstützen, Datenfehler zu erkennen, die behoben werden müssen, und zu beurteilen, ob die Daten in ihren IT-Systemen für den vorgesehenen Zweck geeignet sind.
Die Bedeutung der Datenqualität in Unternehmenssystemen hat zugenommen, da die Datenverarbeitung immer enger mit den Geschäftsabläufen verknüpft ist und Unternehmen zunehmend Datenanalysen zur Unterstützung von Geschäftsentscheidungen einsetzen. Das Datenqualitätsmanagement ist eine Kernkomponente des gesamten Datenmanagementprozesses, und Bemühungen zur Verbesserung der Datenqualität sind oft eng mit Data-Governance-Programmen verbunden, die sicherstellen sollen, dass die Daten im gesamten Unternehmen einheitlich formatiert und verwendet werden.
Warum Datenqualität wichtig ist
Schlechte Daten können erhebliche geschäftliche Konsequenzen für Unternehmen haben. Daten von schlechter Qualität werden oft als Ursache für betriebliche Pannen, ungenaue Analysen und schlecht durchdachte Geschäftsstrategien angesehen. Beispiele für den wirtschaftlichen Schaden, den Datenqualitätsprobleme verursachen können, sind zusätzliche Kosten, wenn Produkte an die falschen Kundenadressen geliefert werden, entgangene Verkaufschancen aufgrund fehlerhafter oder unvollständiger Kundendatensätze und Geldstrafen für unsachgemäße Finanzberichte oder die Einhaltung gesetzlicher Vorschriften.
Das Beratungsunternehmen Gartner berechnete 2021, dass schlechte Datenqualität Unternehmen durchschnittlich 12,9 Millionen US-Dollar pro Jahr kostet. Eine weitere oft zitierte Zahl ist eine Berechnung von IBM, wonach sich die jährlichen Kosten für Datenqualitätsprobleme in den USA im Jahr 2016 auf 3,1 Billionen US-Dollar beliefen. Und in einem Artikel, den er 2017 für die MIT Sloan Management Review schrieb, schätzte der Datenqualitätsberater Thomas Redman, dass die Korrektur von Datenfehlern und die Bewältigung von Geschäftsproblemen, die durch schlechte Daten verursacht werden, Unternehmen durchschnittlich 15 bis 25 Prozent ihres Jahresumsatzes kosten.
Darüber hinaus wird mangelndes Vertrauen in Daten seitens der Unternehmensleitung und der Geschäftsleitung häufig als eines der Haupthindernisse für den Einsatz von Business Intelligence (BI) und Analyse-Tools zur Verbesserung der Entscheidungsfindung in Organisationen genannt. All dies macht eine effektive Strategie für das Datenqualitätsmanagement zu einem Muss.
Was ist gute Datenqualität?
Datengenauigkeit ist ein Schlüsselattribut für qualitativ hochwertige Daten. Um Probleme bei der Transaktionsverarbeitung in operativen Systemen und fehlerhafte Ergebnisse in Analyseanwendungen zu vermeiden, müssen die verwendeten Daten korrekt sein. Ungenaue Daten müssen identifiziert, dokumentiert und korrigiert werden, um sicherzustellen, dass Führungskräfte, Datenanalysten und andere Endnutzer mit guten Informationen arbeiten.
Zu den weiteren Aspekten oder Dimensionen, die wichtige Elemente einer guten Datenqualität sind, gehören:
- Vollständigkeit, das heißt die Datensätze enthalten alle Datenelemente, die sie enthalten sollten
- Konsistenz, was bedeutet, es gibt keine Konflikte zwischen denselben Datenwerten in verschiedenen Systemen oder Datensätzen
- Einzigartigkeit, das heißt das Fehlen doppelter Datensätze in Datenbanken und Data Warehouses
- Aktualität, was bedeutet, dass die Daten aktualisiert wurden, um sie auf dem neuesten Stand zu halten, und dass sie zur Verfügung stehen, wenn sie gebraucht werden
- Validität, das heißt die Bestätigung, dass die Daten die richtigen Werte enthalten und richtig strukturiert sind,
- Konformität mit den von einer Organisation erstellten Standarddatenformaten
Die Erfüllung all dieser Faktoren trägt dazu bei, dass Datensätze zuverlässig und vertrauenswürdig sind. Es gibt eine lange Liste zusätzlicher Dimensionen der Datenqualität, zum Bespiel Angemessenheit, Glaubwürdigkeit, Relevanz, Zuverlässigkeit und Benutzerfreundlichkeit.
Wie man Datenqualität bestimmt
In einem ersten Schritt zur Bestimmung der Datenqualität inventarisieren Unternehmen in der Regel ihre Datenbestände und führen Basisstudien durch, um die relative Genauigkeit, Einzigartigkeit und Gültigkeit von Datensätzen zu messen. Die ermittelten Basiswerte können dann laufend mit den Daten in den Systemen verglichen werden, um neue Datenqualitätsprobleme zu erkennen.
Ein weiterer gemeinsamer Schritt ist die Erstellung einer Reihe von Datenqualitätsregeln auf der Grundlage von Geschäftsanforderungen sowohl für operative als auch analytische Daten. Diese Regeln legen die erforderlichen Qualitätsstufen in den Datensätzen fest und beschreiben detailliert, welche Datenelemente enthalten sein müssen, damit sie auf Genauigkeit, Konsistenz und andere Datenqualitätsattribute geprüft werden können. Nachdem die Regeln aufgestellt sind, führt ein Datenmanagementteam in der Regel eine Datenqualitätsbewertung durch, um die Qualität der Datensätze zu messen und Datenfehler und andere Probleme zu dokumentieren – ein Verfahren, das in regelmäßigen Abständen wiederholt werden kann, um die höchstmögliche Datenqualität zu gewährleisten.
Es wurden verschiedene Methoden für solche Bewertungen entwickelt. So haben beispielsweise die Datenmanager der Tochtergesellschaft Optum Healthcare Services der UnitedHealth Group im Jahr 2009 das Data Quality Assessment Framework (DQAF) entwickelt, um eine Methode zur Bewertung ihrer Datenqualität zu formalisieren. Das DQAF bietet Richtlinien für die Messung der Datenqualität auf der Grundlage von vier Dimensionen: Vollständigkeit, Aktualität, Gültigkeit und Konsistenz. Optum hat Einzelheiten zu diesem Framework als mögliches Modell für andere Organisationen veröffentlicht.
Der Internationale Währungsfonds (IWF), der das globale Währungssystem überwacht und wirtschaftlich angeschlagenen Ländern Geld leiht, hat ebenfalls eine Bewertungsmethode mit demselben Namen wie die von Optum festgelegt. Deren Framework konzentriert sich auf Genauigkeit, Zuverlässigkeit, Konsistenz und andere Datenqualitätsattribute in den statistischen Daten, die die Mitgliedsländer an den IWF übermitteln müssen.
Tools und Techniken für das Datenqualitätsmanagement
Datenqualitätsprojekte umfassen in der Regel auch mehrere andere Schritte. Der von David Loshin, einem Berater für Datenmanagement, beschriebene Zyklus für das Datenqualitätsmanagement beginnt beispielsweise mit der Ermittlung und Messung der Auswirkungen, die schlechte Daten auf den Geschäftsbetrieb haben. Anschließend werden Regeln für die Datenqualität definiert, Leistungsziele für die Verbesserung relevanter Datenqualitätsmetriken festgelegt und spezifische Prozesse zur Verbesserung der Datenqualität entwickelt und eingeführt.
Zu diesen Prozessen gehören die Datenbereinigung (Data Scrubbing) zur Behebung von Datenfehlern sowie die Verbesserung von Datensätzen durch Hinzufügen fehlender Werte, aktuellerer Informationen oder zusätzlicher Datensätze. Die Ergebnisse werden dann überwacht und an den Leistungszielen gemessen, und etwaige verbleibende Mängel in der Datenqualität bilden den Ausgangspunkt für die nächste Runde geplanter Verbesserungen. Mit einem solchen Zyklus soll sichergestellt werden, dass die Bemühungen zur Verbesserung der Gesamtdatenqualität auch nach Abschluss einzelner Projekte fortgesetzt werden.
Um solche Bemühungen zu rationalisieren, können Software-Tools für die Datenqualität Datensätze abgleichen, Duplikate löschen, neue Daten validieren, Abhilfemaßnahmen festlegen und personenbezogene Daten in Datensätzen identifizieren; sie führen erstellen auf Datenprofile, um Informationen über Datensätze zu sammeln und mögliche Ausreißerwerte zu ermitteln. Erweiterte Datenqualitätsfunktionen sind eine aufkommende Gruppe von Funktionen, die Softwareanbieter in ihre Tools einbauen, um Aufgaben und Verfahren zu automatisieren, hauptsächlich durch den Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen.
Verwaltungskonsolen für Datenqualitätsinitiativen unterstützen die Erstellung von Datenverarbeitungsregeln, die Erkennung von Datenbeziehungen und automatische Datentransformationen, die Teil der Datenqualitätspflege sein können. Auch Tools für die Zusammenarbeit und zur Unterstützung von Arbeitsabläufen werden immer häufiger eingesetzt. Sie bieten Datenqualitätsmanagern und Datenverwaltern, die mit der Überwachung bestimmter Datensätze betraut sind, gemeinsame Ansichten von Unternehmensdaten-Repositories.
Datenqualitäts-Tools und Verbesserungsprozesse werden häufig in Data-Governance-Programme integriert, die in der Regel Datenqualitätsmetriken verwenden, um ihren geschäftlichen Nutzen für Unternehmen zu demonstrieren. Sie sind auch wichtige Bestandteile von Stammdatenmanagement-Initiativen, die zentrale Register mit Stammdaten zu Kunden, Produkten und Lieferketten sowie anderen Datendomänen erstellen.
Vorteile einer guten Datenqualität
Aus finanzieller Sicht können Unternehmen durch die Aufrechterhaltung einer hohen Datenqualität die Kosten für die Identifizierung und Korrektur fehlerhafter Daten in ihren Systemen senken. Außerdem können Unternehmen Betriebsfehler und Unterbrechungen von Geschäftsprozessen vermeiden, die zu höheren Betriebskosten und geringeren Einnahmen führen können.
Darüber hinaus erhöht eine gute Datenqualität die Genauigkeit von Analyseanwendungen, was zu besseren Geschäftsentscheidungen führt, die den Umsatz steigern, interne Prozesse verbessern und Unternehmen einen Wettbewerbsvorteil gegenüber Konkurrenten verschaffen. Qualitativ hochwertige Daten tragen auch dazu bei, die Nutzung von BI-Dashboards und Analyse-Tools auszuweiten – wenn Analysedaten als vertrauenswürdig angesehen werden, verlassen sich Geschäftsanwender eher auf sie, als dass sie sich bei ihren Entscheidungen auf ihr Bauchgefühl oder ihre eigenen Tabellenkalkulationen stützen.
Durch ein effektives Datenqualitätsmanagement können sich die Datenmanagementteams auch auf produktivere Aufgaben konzentrieren als die Bereinigung von Datensätzen. So können sie beispielsweise mehr Zeit damit verbringen, Geschäftsanwender und Datenanalysten dabei zu unterstützen, die in den Systemen verfügbaren Daten zu nutzen, und Best Practices für die Datenqualität im Geschäftsbetrieb zu fördern, um Datenfehler zu minimieren.
Neue Herausforderungen für Datenqualität
Viele Jahre lang konzentrierte sich die Last der Datenqualitätsbemühungen auf strukturierte Daten, die in relationalen Datenbanken gespeichert waren, da diese die vorherrschende Technologie für die Datenverwaltung waren. Mit der zunehmenden Verbreitung von Big-Data-Systemen und Cloud Computing haben sich die Probleme der Datenqualität jedoch erweitert. Datenmanager müssen sich zunehmend auch auf die Qualität unstrukturierter und semistrukturierter Daten konzentrieren, wie zum Beispiel Text, Internet-Clickstream-Datensätze, Sensordaten und Netzwerk-, System- und Anwendungsprotokolle. Darüber hinaus muss die Datenqualität jetzt oft in einer Kombination aus lokalen und Cloud-Systemen verwaltet werden.
Der zunehmende Einsatz von KI-Tools und Machine-Learning-Anwendungen in Unternehmen verkompliziert den Datenqualitätsprozess zusätzlich, ebenso wie die Einführung von Echtzeit-Daten-Streaming-Plattformen, die kontinuierlich große Datenmengen in Unternehmenssysteme einspeisen. Komplexe Datenpipelines, die zur Unterstützung von Data-Science- und Advanced-Analytics-Arbeiten erstellt wurden, tragen ebenfalls zu den Herausforderungen bei.
Die Anforderungen an die Datenqualität steigen auch aufgrund der Umsetzung neuer Datenschutzgesetze, insbesondere der EU-Datenschutz-Grundverordnung (EU-DSGVO) und des California Consumer Privacy Act (CCPA). Das bedeutet, dass Unternehmen in der Lage sein müssen, alle Datensätze zu einer Person in ihren Systemen zu finden, ohne dass Daten aufgrund von Ungenauigkeiten oder Inkonsistenzen fehlen.
Behebung von Datenqualitätsproblemen
Datenqualitätsmanager, Analysten und Ingenieure sind in erster Linie für die Behebung von Datenfehlern und anderen Datenqualitätsproblemen in Unternehmen verantwortlich. Sie haben die Aufgabe, fehlerhafte Daten in Datenbanken und anderen Datenbeständen aufzuspüren und zu bereinigen. Dabei werden sie häufig von anderen Datenmanagementexperten unterstützt, insbesondere von Data Stewards und Data-Governance-Programmmanagern.
Es ist jedoch auch gängige Praxis, Geschäftsanwender, Datenwissenschaftler und andere Analysten in den Datenqualitätsprozess einzubeziehen, um die Anzahl der in den Systemen entstehenden Datenqualitätsprobleme zu verringern. Die Beteiligung der Unternehmen kann zum Teil durch Data-Governance-Programme und die Interaktion mit Data Stewards erreicht werden, die häufig aus den Geschäftsbereichen kommen. Darüber hinaus führen viele Unternehmen aber auch Schulungsprogramme für Endanwender zu Best Practices im Bereich Datenqualität durch. Ein gängiges Mantra unter Datenmanagern ist, dass jeder in einer Organisation für die Datenqualität verantwortlich ist.
Datenqualität versus Datenintegrität
Die Begriffe Datenqualität und Datenintegrität werden manchmal synonym verwendet; manche betrachten die Datenintegrität auch als eine Facette der Datengenauigkeit oder als eine separate Dimension der Datenqualität. Im Allgemeinen wird Datenintegrität jedoch als ein breiteres Konzept betrachtet, das Datenqualität, Data Governance und Datenschutzmechanismen kombiniert, um Datengenauigkeit, -konsistenz und -sicherheit als Ganzes zu behandeln.
In dieser umfassenderen Sichtweise konzentriert sich die Datenintegrität sowohl auf die logische als auch auf die physische Integrität. Die logische Integrität umfasst Datenqualitätsmaßnahmen und Datenbankattribute wie die referentielle Integrität, die sicherstellt, dass zusammengehörige Datenelemente in verschiedenen Datenbanktabellen gültig sind. Die physische Integrität umfasst Zugriffskontrollen und andere Sicherheitsmaßnahmen, die verhindern sollen, dass Daten von unbefugten Benutzern geändert oder beschädigt werden, sowie Schutzmaßnahmen für die Sicherung und Wiederherstellung im Notfall.