Definition

Data Profiling

Data Profiling, zu Deutsch etwa Datenprofilerstellung, bezieht sich auf den Prozess der Untersuchung, Analyse, Überprüfung und Zusammenfassung von Datensätzen, um einen Einblick in die Qualität der Daten zu erhalten. Die Datenqualität ist ein Maß für den Zustand der Daten, welche auf Faktoren wie Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Zugänglichkeit beruht.

Darüber hinaus beinhaltet Data Profiling eine Überprüfung der Quelldaten, um die Struktur, den Inhalt und die Zusammenhänge der Daten zu verstehen.

Dieser Überprüfungsprozess liefert Unternehmen zwei Werte: Erstens bietet er einen Überblick über die Qualität der Datenbestände und zweitens unterstützt er die Organisation, potenzielle Datenprojekte zu identifizieren.

Angesichts dieser Vorteile ist die Erstellung von Datenprofilen ein wichtiger Bestandteil von Datenaufbereitungsprogrammen (Data Preparation). Da es Unternehmen bei der Identifizierung von Qualitätsdaten hilft, ist es ein wichtiger Vorläufer für Datenverarbeitungs- und Datenanalysetätigkeiten.

Darüber hinaus kann ein Unternehmen das Data Profiling und die daraus gewonnenen Erkenntnisse nutzen, um die Qualität seiner Daten kontinuierlich zu verbessern und die Ergebnisse dieser Bemühungen zu messen.

Data Profiling kann auch als Datenarchäologie, Datenbewertung, Datenentdeckung oder Datenqualitätsanalyse bezeichnet werden.

Unternehmen nutzen Data Profiling zu Beginn eines Projekts, um festzustellen, ob genügend Daten gesammelt wurden, ob Daten wiederverwendet werden können oder ob es sich lohnt, das Projekt fortzuführen. Der Prozess des Data Profiling selbst kann auf spezifischen Geschäftsregeln beruhen, die aufdecken, wie der Datensatz mit den Geschäftsstandards und -zielen übereinstimmt.

Data-Profiling-Arten

Es gibt drei Data-Profiling-Arten:

  • Strukturermittlung. Hierbei liegt der Schwerpunkt auf der Formatierung der Daten, um sicherzustellen, dass alles einheitlich und konsistent ist. Mit Unterstützung grundlegender statistischer Analysen werden Informationen über die Gültigkeit der Daten gewonnen.
  • Erkennung des Inhalts. Bei diesem Prozess wird die Qualität der einzelnen Daten bewertet. So werden beispielsweise mehrdeutige, unvollständige und ungültige Werte identifiziert.
  • Erkennung von Beziehungen. Hierbei werden Verbindungen, Ähnlichkeiten, Unterschiede und Assoziationen zwischen Datenquellen aufgedeckt.

Was sind die Schritte im Data-Profiling-Prozess?

Data Profiling hilft Unternehmen, Probleme mit der Datenqualität zu erkennen und zu beheben, bevor die Daten analysiert werden, damit Datenexperten bei der Verarbeitung von Daten zur Entscheidungsfindung nicht mit Inkonsistenzen, ungültigen Werten oder inkohärenten Schemata konfrontiert werden.

Bei Data Profiling werden die Daten an der Quelle und beim Laden statistisch untersucht und analysiert. Außerdem werden die Metadaten auf ihre Richtigkeit und Vollständigkeit hin untersucht.

Dazu werden in der Regel entweder Abfragen geschrieben oder Data Profiling Tools verwendet.

Im Folgenden wird der Prozess in groben Zügen dargestellt:

  1. Der erste Schritt des Data Profiling besteht darin, eine oder mehrere Datenquellen und die zugehörigen Metadaten für die Analyse zu erfassen.
  2. Die Daten werden dann bereinigt, um die Struktur zu vereinheitlichen, Duplikate zu beseitigen, Zusammenhänge zu erkennen und Anomalien zu finden.
  3. Sobald die Daten bereinigt sind, liefern Data Profiling Tools verschiedene Statistiken zur Beschreibung des Datensatzes. Dazu können der Mittelwert, der minimale/maximale Wert, die Häufigkeit, wiederkehrende Muster, Abhängigkeiten oder Risiken für die Datenqualität gehören.

Durch die Untersuchung der Häufigkeitsverteilung verschiedener Werte für jede Spalte in einer Tabelle kann ein Datenanalyst beispielsweise einen Einblick in die Art und Verwendung jeder Spalte gewinnen. Die spaltenübergreifende Analyse kann verwendet werden, um eingebettete Wertabhängigkeiten aufzudecken; die tabellenübergreifende Analyse ermöglicht es dem Analysten, sich überschneidende Wertemengen zu entdecken, die Fremdschlüsselbeziehungen zwischen Entitäten darstellen.

Data-Profiling-Schritte
Abbildung 1: Dies sind die wichtigsten Schritte für die Profilerstellung von Datensätzen.

Vorteile des Data Profiling

Data Profiling liefert einen Überblick über die Daten auf hoher Ebene, was zu folgenden Vorteilen führen kann:

  • qualitativ hochwertigere, glaubwürdigere Daten
  • genauere prädiktive Analysen und Entscheidungen
  • macht die Beziehungen zwischen verschiedenen Datensätzen und -quellen besser nachvollziehbar
  • hält Unternehmensinformationen zentralisiert und organisiert
  • eliminiert Fehler, wie fehlende Werte oder Ausreißer, die bei datengesteuerten Projekten zusätzliche Kosten verursachen
  • hebt die Bereiche innerhalb eines Systems hervor, in denen die meisten Datenqualitätsprobleme auftreten, wie zum Beispiel Datenverfälschungen oder Benutzereingabefehler
  • liefert Erkenntnisse über Risiken, Chancen und Trends

Herausforderungen beim Data Profiling

Obwohl die Ziele des Data Profiling einfach sind, ist die eigentliche Arbeit recht komplex, da von der Aufnahme der Daten bis zu ihrer Speicherung mehrere Aufgaben anfallen.

Diese Komplexität ist eine der Herausforderungen, mit denen Unternehmen konfrontiert werden, wenn sie versuchen, ein erfolgreiches Data-Profiling-Programm zu implementieren und durchzuführen.

Die schiere Menge an Daten, die ein typisches Unternehmen sammelt, ist eine weitere Herausforderung, ebenso wie die Bandbreite an Quellen – von Cloud-Systemen bis hin zu Endgeräten, die als Teil eines Internet-of-Things-Ökosystems eingesetzt werden – die Daten produzieren.

Die Geschwindigkeit, mit der Daten in ein Unternehmen gelangen, stellt eine weitere Herausforderung für ein erfolgreiches Data-Profiling-Programm dar.

Diese Herausforderungen bei der Datenvorbereitung sind in Unternehmen, die keine modernen Tools für die Datenprofilerstellung eingeführt haben und sich immer noch auf manuelle Prozesse für große Teile dieser Arbeit verlassen, noch größer.

Ähnlich verhält es sich mit Organisationen, die nicht über angemessene Ressourcen verfügen, einschließlich geschulter Datenexperten, Tools und der entsprechenden Finanzierung, die es schwerer haben werden, diese Herausforderungen zu bewältigen.

Aus diesen Gründen ist Data Profiling jedoch wichtiger denn je, um sicherzustellen, dass das Unternehmen über qualitativ hochwertige Daten verfügt, die es für intelligente Systeme, Kundenpersonalisierung, produktivitätssteigernde Automatisierungsprojekte und vieles mehr benötigt.

Beispiele für Data Profiling

Data Profiling kann in einer Vielzahl von Anwendungsfällen eingesetzt werden, in denen Datenqualität wichtig ist.

Bei Projekten, die Data Warehousing oder Business Intelligence beinhalten, kann es beispielsweise erforderlich sein, Daten aus mehreren unterschiedlichen Systemen oder Datenbanken für einen Bericht oder eine Analyse zu erfassen. Die Anwendung von Data Profiling auf diese Projekte kann dazu beitragen, potenzielle Probleme und Korrekturen zu identifizieren, die bei ETL-Prozessen (Extract, Transform, Load) und anderen Datenintegrationsprozessen vorgenommen werden müssen, bevor man fortfährt.

Wichtige Schritte zur Erstellung von Datenprofilen
Abbildung 1: Wichtige Schritte zur Erstellung von Datenprofilen

Darüber hinaus ist die Erstellung von Datenprofilen bei Datenkonvertierungs- oder Datenmigrationsinitiativen, bei denen Daten von einem System in ein anderes übertragen werden, von entscheidender Bedeutung. Data Profiling kann dabei unterstützen, Datenqualitätsprobleme zu erkennen, die bei der Übertragung verloren gehen können, oder Anpassungen, die vor der Migration an das neue System vorgenommen werden müssen.

Die folgenden vier Methoden oder Techniken werden bei Data Profiling verwendet:

  • Spaltenprofilierung, bei der Tabellen bewertet und die Einträge in jeder Spalte quantifiziert werden
  • spaltenübergreifende Profilerstellung, die sowohl eine Schlüsselanalyse als auch eine Abhängigkeitsanalyse umfasst
  • tabellenübergreifende Profilerstellung, bei der die Schlüsselanalyse zur Ermittlung von Streudaten sowie semantischen und syntaktischen Diskrepanzen verwendet wird
  • Datenregelvalidierung, bei der Datensätze anhand festgelegter Regeln und Standards bewertet werden, um zu überprüfen, ob diese eingehalten werden

Data Profiling Tools

Data Profiling Tools ersetzen einen Großteil, wenn nicht sogar die gesamte manuelle Arbeit dieser Funktion, indem sie Probleme aufdecken und untersuchen, welche die Datenqualität beeinträchtigen, zum Beispiel Duplikate, Ungenauigkeiten, Inkonsistenzen und mangelnde Vollständigkeit.

Diese Technologien analysieren Datenquellen und verknüpfen Quellen mit ihren Metadaten, um eine weitere Untersuchung von Fehlern zu ermöglichen.

Darüber hinaus bieten sie Datenspezialisten quantitative Informationen und Statistiken zur Datenqualität, in der Regel in tabellarischer und grafischer Form.

Datenmanagementanwendungen können beispielsweise den Profiling-Prozess mit Unterstützung von Tools verwalten, die Fehler beseitigen und die Konsistenz von Daten aus verschiedenen Quellen gewährleisten, ohne dass eine manuelle Kodierung erforderlich ist.

Solche Tools sind heute für viele, wenn nicht sogar für die meisten Unternehmen unverzichtbar, da das Volumen der Daten, die sie für ihre Geschäftsaktivitäten nutzen, selbst die Fähigkeit eines großen Teams, diese Funktion mit überwiegend manuellen Mitteln auszuführen, deutlich übersteigt.

Data Profiling Tools umfassen in der Regel auch Funktionen zur Datenanalyse, zum Aufspüren von Datenlücken und Metadaten sowie zur Erkennung und Zusammenführung von Duplikaten, zur Überprüfung von Datenähnlichkeiten und zur Anpassung von Datenbewertungen.

Zu den kommerziellen Anbietern, die Data-Profiling-Funktionen bereitstellen, gehören Datameer, Informatica, Oracle und SAS. Zu den Open-Source-Lösungen gehören Aggregate Profiler, Apache Griffin, Quadient DataCleaner und Talend.

Diese Definition wurde zuletzt im Juni 2022 aktualisiert

Erfahren Sie mehr über Datenanalyse