sdecoret - stock.adobe.com
Wie man Datenqualität für Big Data gewährleistet
Da die Datenmengen exponentiell ansteigen, sind Methoden zur Verbesserung der Qualität von Big Data von entscheidender Bedeutung, um genaue Geschäftsentscheidungen zu treffen.
Die Datenqualität kann bei jedem Datenmanagement- und Analyseprojekt eine große Herausforderung darstellen. Probleme können sich zum Beispiel aufgrund von Tippfehlern, unterschiedlichen Namenskonventionen und Datenintegrationsproblemen speisen. Aber bei Big-Data-Anwendungen, die eine viel größere Menge, Vielfalt und Geschwindigkeit von Daten umfassen, ist die Datenqualität noch wichtiger.
Und da Qualitätsprobleme bei Big Data zu verschiedenen kontextbezogenen Problemen im Zusammenhang mit unterschiedlichen Anwendungen, Datentypen, Plattformen und Anwendungsfällen führen können, schlägt Faisal Alam, Emerging Technology Lead bei der Unternehmensberatung EY Americas, vor, die Wahrhaftigkeit (Veracity) der Daten in Big-Data-Managementinitiativen zu überprüfen – also den Grad, wir stark man den Daten vertrauen kann.
Warum Datenqualität für Big Data wichtig ist
Probleme mit der Qualität von Big Data können nicht nur zu ungenauen Algorithmen führen, sondern auch zu schweren Unfällen und Verletzungen als Folge von Systemergebnissen in der realen Welt. Zumindest werden Geschäftsanwender weniger geneigt sein, Datensätzen und den darauf aufbauenden Anwendungen zu vertrauen. Darüber hinaus können Unternehmen einer behördlichen Kontrolle unterliegen, wenn Datenqualität und -genauigkeit bei Geschäftsentscheidungen an vorderster Front eine Rolle spielen.
Daten können nur dann ein strategischer Wert sein, wenn genügend Prozesse und Unterstützungsmechanismen vorhanden sind, um die Datenqualität zu regeln und zu verwalten, so V. Balasubramanian, Senior Vice President bei Orion Innovation.
Daten von schlechter Qualität können die Kosten für das Datenmanagement erhöhen, da sie häufig korrigiert werden müssen, zusätzliche Ressourcen benötigen und Probleme mit der Einhaltung von Vorschriften verursachen. Außerdem können sie zu einer Beeinträchtigung der Entscheidungsfindung und der Geschäftsprognosen führen.
Wie sich die Datenqualität bei Big Data unterscheidet
Datenqualität war schon immer ein Thema, seit Menschen Daten sammeln. „Aber Big Data ändert alles“, sagt Manu Bansal, Mitbegründer und CEO von Lightup Data.
Bansal arbeitet mit einem 100-köpfigen Team, das täglich mehrere Terabyte an Kundendaten generiert und verarbeitet. Die Verwaltung dieser Datenmenge verändert den Ansatz zur Sicherstellung der Datenqualität für Big Data völlig und muss folgende Schlüsselfaktoren berücksichtigen:
- Skalierungsprobleme. Es ist nicht mehr praktikabel, ein Import- und Inspektionsdesign zu verwenden, das für herkömmliche Datendateien oder Tabellenkalkulationen funktioniert hat. Datenmanagementteams müssen Verfahren für die Qualität von Big Data entwickeln, die sowohl für herkömmliche Data Warehouses und moderne Data Lakes als auch für Echtzeitdatenströme geeignet sind.
- Komplexe und dynamische Formen von Daten. Big Data kann aus mehreren Dimensionen über Ereignistypen, Benutzersegmente, Anwendungsversionen und Gerätetypen bestehen. „Um das Problem der Datenqualität sinnvoll zu erfassen, müssen einzelne Datenabschnitte überprüft werden, die leicht in die Hunderte oder Tausende gehen können“, sagt Bansal. Die Form der Daten kann sich auch ändern, wenn neue Ereignisse und Attribute hinzukommen und alte veraltet sind.
- Große Datenmengen. In Big-Data-Systemen ist es unmöglich, neue Daten manuell zu überprüfen. Die Sicherstellung der Datenqualität für Big Data erfordert die Entwicklung von Qualitätsmetriken, die automatisch anhand von Änderungen in Big-Data-Anwendungen und Anwendungsfällen nachverfolgt werden können.
Probleme bei der Qualität von Big Data
Zusammenführung unterschiedlicher Datentaxonomien. Zusammengeschlossene Unternehmen oder einzelne Geschäftsbereiche innerhalb eines Unternehmens haben möglicherweise ihre eigenen Datentaxonomien und Ontologien erstellt und fein abgestimmt, die ihre jeweilige Arbeitsweise widerspiegeln. „Private-Equity-Investitionen können beispielsweise das Tempo von Fusionen und Übernahmen beschleunigen, bei denen oft mehrere Unternehmen zu einer großen Organisation zusammengeführt werden“, sagt Chris Comstock, Chief Product Officer beim Anbieter der Data-Governance-Plattform Claravine. Jedes der übernommenen Unternehmen verfügte in der Regel über seine eigenen CRM-, Marketingautomatisierungs-, Marketing-Content-Management-, Kundendatenbank- und Lead-Qualifizierungsmethoden-Daten. Die Kombination dieser Systeme zu einer einzigen Datenstruktur, um einheitliche Kampagnen zu orchestrieren, kann immense Herausforderungen für die Qualität von Big Data mit sich bringen.
Aufrechterhaltung der Konsistenz. Das Bereinigen, Validieren und Normalisieren von Daten verursachen ebenfalls Herausforderungen für die Qualität von Big Data. Ein Beispiel: Eine Telefongesellschaft erstellte Modelle, die Netzwerkfehlerdaten, Ausfallberichte und Kundenbeschwerde auswertete, um festzustellen, ob Probleme mit einem geografischen Standort in Verbindung gebracht werden konnten. Bei einigen Adressen, die in einem System als „123 First Street“ und in einem anderen System als „123 1ST STREET WEST“ angezeigt wurden, fehlte es jedoch an Konsistenz.
Abweichungen bei der Datenaufbereitung. Um Daten für neue Anwendungsfälle zu normalisieren und zu bereinigen, ist oft eine Vielzahl von Datenaufbereitungstechniken erforderlich. Diese Arbeit ist manuell, monoton und mühsam. „Datenqualitätsprobleme können entstehen, wenn Datenaufbereitungsteams, die mit Daten in verschiedenen Silos arbeiten, ähnlich klingende Datenelemente auf unterschiedliche Weise berechnen“, sagt Monte Zweben, Mitbegründer und CEO des KI- und Datenplattformanbieters Splice Machine. Ein Team kann zum Beispiel den Gesamtkundenumsatz berechnen, indem es die Retouren von den Verkäufen abzieht, während ein anderes Team ihn nur anhand der Verkäufe berechnet. Das Ergebnis sind inkonsistente Metriken in verschiedenen Datenpipelines.
Sammeln von zu vielen Daten. Datenmanagementteams sind manchmal darauf fixiert, immer mehr Daten zu sammeln. „Aber mehr ist nicht immer der richtige Ansatz“, erklärt Wilson Pang, CTO beim KI-Trainingsdatendienst Appen. Je mehr Daten gesammelt werden, desto größer ist das Risiko von Fehlern in diesen Daten. Irrelevante oder schlechte Daten müssen vor dem Training des Datenmodells bereinigt werden, aber auch Bereinigungsmethoden können die Ergebnisse negativ beeinflussen.
Fehlen einer Data-Governance-Strategie. Schlechte Datenmanagement- und Kommunikationspraktiken können zu allen Arten von Qualitätsproblemen führen. Eine Big-Data-Qualitätsstrategie sollte durch ein starkes Data-Governance-Programm unterstützt werden, das Datenrichtlinien, -definitionen und -standards zur effektiven Datennutzung einführt und verwaltet sowie Datenkompetenz kommuniziert. „Sobald die Daten von ihren Quellumgebungen entkoppelt sind, sind die Regeln und Details der Daten bekannt und werden von der Datengemeinschaft respektiert“, sagt Kim Kaluba, Senior Product Marketing Manager beim Anbieter von Datenmanagement- und Analysesoftware SAS Institute.
Das richtige Gleichgewicht finden. Laut Arthur Lent, Senior Vice President und CTO der Datensicherungsabteilung von Dell EMC, besteht ein natürliches Spannungsverhältnis zwischen dem Wunsch, alle verfügbaren Daten zu erfassen, und der Sicherstellung, dass die erfassten Daten von höchster Qualität sind. Es ist auch wichtig, den Zweck der Erfassung bestimmter Daten, die Prozesse, die zur Sammlung von Big Data verwendet werden, und die beabsichtigten nachgelagerten Analyseanwendungen durch den Rest des Unternehmens zu verstehen. In der Regel können sich benutzerdefinierte Verfahren entwickeln, die fehleranfällig, brüchig und nicht wiederholbar sind.
Bewährte Verfahren zur Verwaltung der Qualität von Big Data
Laut Balasubramanian gehören zu den Best Practices, die die Datenqualität für Big Data konsequent verbessern, folgende:
- Einholen der Unterstützung durch die Geschäftsleitung, um Data-Governance-Prozesse zu etablieren.
- Einrichtung eines funktionsübergreifenden Data-Governance-Teams, dem Geschäftsanwender, Geschäftsanalysten, Datenmanager, Datenarchitekten, Datenanalysten und Softwareentwickler angehören.
- Einrichtung starker Governance-Strukturen, einschließlich Data Stewardship, proaktiver Überwachung und regelmäßiger Überprüfungen von Daten.
- Definition von Datenvalidierung und Geschäftsregeln, die in bestehende Prozesse und Systeme eingebettet sind.
- Zuweisung von Datenverantwortlichen für verschiedene Geschäftsbereiche und Einrichtung von Prozessen für die Überprüfung und Genehmigung von Daten und Datenelementen.
- Etablierung solider Prozesse für das Stammdatenmanagement, damit es im gesamten Unternehmen nur eine einzige, umfassende und einheitliche Methode zur Definition von Produkt- oder Kundendaten gibt.
- Definition von Geschäftsglossardatenstandards, Nomenklatur und kontrollierten Begriffen.
- Übernahme von kontrollierten Formulierungen und Begriffen, die von nationalen und internationalen Organisationen erstellt wurden.
- Beseitigung von Datenduplikaten durch Integration von Big Data über Schnittstellen zu anderen Systemen, wo immer dies möglich ist.