Datenbereinigung
Datenbereinigung, auch Data Cleaning, Data Cleansing oder Data Scrubbing genannt, ist der Prozess der Korrektur falscher, unvollständiger, doppelter oder anderweitig fehlerhafter Daten in einem Datensatz. Es geht darum, Datenfehler zu identifizieren und dann Daten zu ändern, zu aktualisieren oder zu entfernen, um sie zu korrigieren. Datenbereinigung verbessert die Datenqualität und trägt dazu bei, genauere, konsistentere und zuverlässigere Informationen für die Entscheidungsfindung in einem Unternehmen bereitzustellen.
Datenbereinigung ist ein wichtiger Bestandteil des gesamten Datenmanagementprozesses und eine der Kernkomponenten der Datenaufbereitung, mit der Datensätze für die Verwendung in Business-Intelligence- (BI) und Data-Science-Anwendungen vorbereitet werden. Sie wird in der Regel von Datenqualitätsanalysten und -ingenieuren oder anderen Datenmanagementexperten durchgeführt. Aber auch Data Scientists, BI-Analysten und Geschäftsanwender können Daten bereinigen oder sich am Datenbereinigungsprozess für ihre eigenen Anwendungen beteiligen.
Data Cleansing versus Data Cleaning versus Data Scrubbing
Die Begriffe Data Cleansing, Data Cleaning und Data Scrubbing werden im Englischen oft synonym verwendet. In den meisten Fällen werden sie als ein und dasselbe angesehen. In einigen Fällen wird Data Scrubbing jedoch als ein Element der Datenbereinigung angesehen, das speziell das Entfernen von doppelten, schlechten, nicht benötigten oder alten Daten aus Datensätzen beinhaltet.
Data Scrubbing hat auch eine andere Bedeutung im Zusammenhang mit der Datenspeicherung. In diesem Zusammenhang handelt es sich um eine automatisierte Funktion, die Festplattenlaufwerke und Speichersysteme überprüft, um sicherzustellen, dass die darin enthaltenen Daten gelesen werden können und um fehlerhafte Sektoren oder Blöcke zu identifizieren.
Warum sind bereinigte Daten wichtig?
Geschäftsabläufe und Entscheidungsfindung sind zunehmend datengesteuert, da Unternehmen versuchen, mit Datenanalysen die Unternehmensleistung zu verbessern und Wettbewerbsvorteile gegenüber Konkurrenten zu erzielen. Daher sind saubere Daten ein Muss für BI- und Data-Science-Teams, Führungskräfte, Marketingmanager, Vertriebsmitarbeiter und operative Mitarbeiter. Dies gilt insbesondere für den Einzelhandel, Finanzdienstleistungen und andere datenintensive Branchen, aber auch für große und kleine Unternehmen.
Wenn Daten nicht ordnungsgemäß bereinigt werden, sind Kundendatensätze und andere Geschäftsdaten möglicherweise nicht korrekt, und Analyseanwendungen können fehlerhafte Informationen liefern. Dies kann zu fehlerhaften Geschäftsentscheidungen, fehlgeleiteten Strategien, verpassten Chancen und betrieblichen Problemen führen, die letztlich die Kosten in die Höhe treiben und Umsatz und Gewinn verringern können.
Welche Arten von Datenfehlern werden durch Datenbereinigung behoben?
Datenbereinigung befasst sich mit einer Reihe von Fehlern und Problemen in Datensätzen, darunter ungenaue, ungültige, inkompatible und beschädigte Daten. Einige dieser Probleme werden durch menschliches Versagen bei der Dateneingabe verursacht, während andere aus der Verwendung unterschiedlicher Datenstrukturen, -formate und -terminologie in verschiedenen Systemen innerhalb einer Organisation resultieren.
Zu den Arten von Problemen, die üblicherweise im Rahmen von Datenbereinigungsprojekten behoben werden, gehören:
- Tippfehler und ungültige oder fehlende Daten. Die Datenbereinigung korrigiert verschiedene strukturelle Fehler in Datensätzen. Dazu gehören zum Beispiel Rechtschreibfehler und andere typografische Fehler, falsche numerische Einträge, Syntaxfehler und fehlende Werte, wie leere oder ungültige Felder, die Daten enthalten sollten.
- Inkonsistente Daten. Namen, Adressen und andere Attribute sind oft von System zu System unterschiedlich formatiert. So kann ein Datensatz beispielsweise die mittlere Initiale eines Kunden enthalten, ein anderer nicht. Auch Datenelemente wie Begriffe und Bezeichnungen können variieren. Datenbereinigung trägt dazu bei, dass die Daten konsistent sind, damit sie genau analysiert werden können.
- Doppelte Daten. Bei der Datenbereinigung werden doppelte Daten in Datensätzen identifiziert und mit Deduplizierungsmaßnahmen entweder entfernt oder zusammengeführt. Wenn zum Beispiel Daten aus zwei Systemen kombiniert werden, können doppelte Dateneinträge abgeglichen werden, um einzelne Datensätze zu erstellen.
- Irrelevante Daten. Einige Daten, zum Beispiel Ausreißer oder veraltete Einträge, sind für Analyseanwendungen möglicherweise nicht relevant und könnten deren Ergebnisse verfälschen. Durch Datenbereinigung werden redundante Daten aus den Datensätzen entfernt, wodurch Datenaufbereitung rationalisiert und die erforderliche Menge an Datenverarbeitungs- und Speicherressourcen reduziert wird.
Was sind die Schritte im Datenbereinigungsprozess?
Der Umfang der Datenbereinigung variiert je nach Datensatz und Analyseanforderungen. Ein Datenwissenschaftler, der eine Betrugserkennungsanalyse von Kreditkartentransaktionsdaten durchführt, möchte beispielsweise Ausreißerwerte beibehalten, da sie ein Anzeichen für betrügerische Käufe sein können. Der Datenbereinigungsprozess umfasst jedoch in der Regel folgende Schritte:
- Inspektion und Profiling. Zunächst werden die Daten inspiziert und geprüft, um ihr Qualitätsniveau zu bewerten und Probleme zu identifizieren, die behoben werden müssen. Dieser Schritt umfasst in der Regel die Erstellung von Datenprofilen (Data Profiling), bei der die Beziehungen zwischen Datenelementen dokumentiert, die Datenqualität geprüft und Statistiken über Datensätze erstellt werden, um Fehler, Diskrepanzen und andere Probleme zu erkennen.
- Bereinigung. Dies ist das Herzstück des Bereinigungsprozesses, bei dem Datenfehler korrigiert und inkonsistente, doppelte und redundante Daten bereinigt werden.
- Verifizierung. Nach Abschluss der Bereinigung sollte die Person oder das Team, die beziehungsweise das die Arbeit durchgeführt hat, die Daten erneut überprüfen, um sicherzustellen, dass sie sauber sind und den internen Regeln und Standards für die Datenqualität entsprechen.
- Reporting. Die Ergebnisse der Datenbereinigung sollten anschließend an die IT- und Geschäftsleitung gemeldet werden, um Trends und Fortschritte bei der Datenqualität aufzuzeigen. Der Bericht könnte die Anzahl der gefundenen und behobenen Probleme sowie aktualisierte Metriken zum Qualitätsniveau der Daten enthalten.
Die bereinigten Daten können dann in die verbleibenden Phasen der Datenaufbereitung überführt werden, beginnend mit der Datenstrukturierung und Datentransformation, um sie für die Analysezwecke vorzubereiten.
Merkmale von bereinigten Daten
Verschiedene Datenmerkmale und -attribute werden verwendet, um die Sauberkeit und Gesamtqualität von Datensätzen zu messen, darunter:
- Genauigkeit
- Vollständigkeit
- Konsistenz
- Integrität
- Aktualität
- Einheitlichkeit
- Gültigkeit
Datenmanagementteams erstellen Datenqualitätsmetriken, um diese Merkmale sowie Dinge wie Fehlerquoten und die Gesamtzahl der Fehler in Datensätzen zu verfolgen. Viele versuchen auch, die geschäftlichen Auswirkungen von Datenqualitätsproblemen und den potenziellen geschäftlichen Nutzen ihrer Behebung zu berechnen, teilweise durch Umfragen und Interviews mit Führungskräften.
Vorteile der Datenbereinigung
Eine gut durchgeführte Datenbereinigung bietet folgende Vorteile für Unternehmen und Datenmanagement:
- Verbesserte Entscheidungsfindung. Mit genaueren Daten können Analyseanwendungen bessere Ergebnisse erzielen. Dadurch können Unternehmen fundiertere Entscheidungen zu Geschäftsstrategien und -abläufen sowie zu Themen wie Patientenversorgung und staatliche Programme treffen.
- Effektiveres Marketing und Vertrieb. Kundendaten sind oft falsch, inkonsistent oder veraltet. Die Bereinigung der Daten in Kundenbeziehungsmanagement- und Vertriebssystemen trägt dazu bei, die Effektivität von Marketingkampagnen und Vertriebsbemühungen zu verbessern.
- Bessere operative Leistung. Saubere, qualitativ hochwertige Daten helfen Unternehmen, Fehlbestände, Lieferengpässe und andere Geschäftsprobleme zu vermeiden, die zu höheren Kosten, geringeren Einnahmen und schlechten Kundenbeziehungen führen können.
- Verstärkte Nutzung von Daten. Daten sind zu einem wichtigen Unternehmenswert geworden, aber sie können keinen Geschäftswert generieren, wenn sie nicht genutzt werden. Indem die Datenbereinigung die Vertrauenswürdigkeit der Daten erhöht, trägt sie dazu bei, Manager und Mitarbeiter davon zu überzeugen, sich bei ihrer Arbeit auf die Daten zu verlassen.
- Geringere Datenkosten. Datenbereinigung verhindert, dass sich Datenfehler und Probleme in Systemen und Analyseanwendungen weiter ausbreiten. Langfristig spart dies Zeit und Geld, da IT- und Datenmanagementteams nicht immer wieder die gleichen Fehler in Datensätzen beheben müssen.
Datenbereinigung und andere Datenqualitätsmethoden sind auch ein wichtiger Bestandteil von Data-Governance-Programmen, die sicherstellen sollen, dass die Daten in Unternehmenssystemen konsistent sind und ordnungsgemäß verwendet werden. Saubere Daten sind eines der Markenzeichen einer erfolgreichen Data-Governance-Initiative.
Herausforderungen bei der Datenbereinigung
An Herausforderungen mangelt es der Datenbereinigung nicht. Eine der größten besteht darin, dass sie oft zeitaufwendig ist, da in vielen Datensätzen eine Vielzahl von Problemen zu lösen und es schwierig ist, die Ursachen einiger Fehler genau zu bestimmen. Weitere Herausforderungen sind:
- Die beteiligten Akteure müssen Entscheidungen darüber treffen, wie sich fehlende Datenwerte auflösen lassen, damit sie die Analyseanwendungen nicht beeinträchtigen.
- Inkonsistente Daten befinden sich häufig in Systemen, die von verschiedenen Geschäftseinheiten kontrolliert werden.
- Datenqualitätsprobleme existieren in der Regel in Big-Data-Systemen, die eine Mischung aus strukturierten, semistrukturierten und unstrukturierten Daten enthalten.
- Unternehmen müssen ausreichend Ressourcen und organisatorische Unterstützung bereitstellen, um Daten zu bereinigen.
- Datensilos erschweren ebenfalls den Datenbereinigungsprozess.
Software und Anbieter für Datenbereinigung
Zur Automatisierung von Datenbereinigungsaufgaben können zahlreiche Tools verwendet werden, darunter sowohl kommerzielle Software als auch Open-Source-Technologien. In der Regel enthalten die Tools eine Vielzahl von Funktionen zur Korrektur von Datenfehlern und -problemen, wie zum Beispiel das Hinzufügen fehlender Werte, das Ersetzen ungültiger Werte, das Korrigieren der Zeichensetzung, das Standardisieren von Feldern und das Kombinieren doppelter Datensätze. Viele führen auch einen Datenabgleich durch, um doppelte oder verwandte Datensätze zu finden.
Tools, die bei der Datenbereinigung helfen, gibt es in einer Vielzahl von Produkten und Plattformen, darunter:
- spezielle Datenbereinigungsanwendungen von Anbietern wie Data Ladder und WinPure
- Datenqualitätssoftware von Anbietern wie Datactics, Experian, Innovative Systems, Melissa, Microsoft und Precisely
- Datenaufbereitungs-Tools von Anbietern wie Altair, DataRobot, Tableau, Tibco Software und Trifacta
- Datenmanagementplattformen von Anbietern wie Alteryx, Ataccama, IBM, Informatica, SAP, SAS, Syniti und Talend
- Software zur Verwaltung von Kunden- und Kontaktdaten von Anbietern wie Redpoint Global, RingLead, Synthio und Tye
- Tools für die Bereinigung von Daten in Salesforce-Systemen von Anbietern wie Cloudingo und Plauti
- Open Source Tools wie DataCleaner und OpenRefine