Definition

Datentransformation

Unter Datentransformation versteht man die Umwandlung von Daten aus einem Format, zum Beispiel einer Datenbankdatei, einem XML-Dokument oder einer Excel-Tabelle, in ein anderes.

Bei der Umwandlung werden in der Regel Rohdaten in ein bereinigtes, validiertes und gebrauchsfertiges Format konvertiert. Datentransformation ist für Datenmanagementprozesse wie Datenintegration, Datenmigration, Data Warehousing und Datenaufbereitung von entscheidender Bedeutung.

Der Prozess der Datentransformation kann auch als Extract, Transform, Load (ETL) bezeichnet werden. In der Extraktionsphase werden Daten aus den verschiedenen Quellsystemen, die Daten erzeugen, identifiziert und in ein einziges Repository verschoben. Anschließend werden die Rohdaten, falls erforderlich, bereinigt. Danach werden sie in ein Zielformat umgewandelt, das in operative Systeme oder in ein Data Warehouse, einen Data Lake oder ein anderes Repository zur Verwendung in Business-Intelligence- und Analyseanwendungen eingespeist werden kann. Die Transformation kann die Konvertierung von Datentypen, die Entfernung doppelter Daten und die Anreicherung der Quelldaten umfassen.

Datentransformation ist von entscheidender Bedeutung für Prozesse wie Datenintegration, Datenmanagement, Datenmigration, Data Warehousing und Data Wrangling.

Sie ist auch eine entscheidende Komponente für jedes Unternehmen, das seine Daten nutzen möchte, um zeitnahe Geschäftseinblicke zu gewinnen. Da das Datenvolumen immer größer wird, müssen Unternehmen einen effizienten Weg finden, die Daten zu nutzen, um sie effektiv für ihr Geschäft einzusetzen. Datentransformation ist ein Element zur Nutzung dieser Daten, da sie, wenn sie richtig durchgeführt wird, sicherstellt, dass die Daten leicht zugänglich, konsistent und sicher sind und die vorgesehenen Geschäftsanwender ihnen vertrauen.

Schritte der Datentransformation

Der Prozess der Datentransformation umfasst, wie bereits erwähnt, die Identifizierung von Datenquellen und -typen, die Bestimmung der Struktur der erforderlichen Transformation und die Festlegung, wie Felder geändert oder aggregiert werden sollen. Dazu gehört auch die Extraktion von Daten aus ihrer ursprünglichen Quelle, ihre Umwandlung und ihre Übermittlung an den Zielort, zum Beispiel eine Datenbank oder ein Data Warehouse. Extraktionen können aus vielen Quellen stammen, darunter strukturierte Quellen, Streaming-Quellen oder Protokolldateien von Webanwendungen.

Datenanalysten, Dateningenieure und Datenwissenschaftler sind in der Regel für die Datentransformation in einem Unternehmen zuständig. Sie identifizieren die Quelldaten, legen die erforderlichen Datenformate fest und führen das Daten-Mapping sowie den eigentlichen Transformationsprozess durch, bevor sie die Daten zur Speicherung und Nutzung in geeignete Datenbanken verschieben.

Ihre Arbeit umfasst fünf Schritte:

  1. Datenermittlung, bei der Datenexperten Datenprofilierungs-Tools oder Profiling-Skripte verwenden, um die Struktur und die Merkmale der Daten zu verstehen und zu bestimmen, wie sie transformiert werden sollen
  2. Daten-Mapping, bei dem Datenexperten Datenfelder aus einer Quelle mit Datenfeldern in einer anderen Quelle verbinden oder abgleichen
  3. Codegenerierung, ein Teil des Prozesses, bei dem der für die Datentransformation erforderliche Softwarecode erstellt wird (entweder durch Datentransformations-Tools oder durch die Datenexperten selbst, die Skripte schreiben)
  4. Ausführung des Codes, bei der die Daten umgewandelt werden
  5. Überprüfung, bei der die Datenexperten oder die Geschäfts-/Endnutzer bestätigen, dass die Ausgabedaten den festgelegten Umwandlungsanforderungen entsprechen, und, falls dies nicht der Fall ist, etwaige Anomalien und Fehler angehen und korrigieren

Diese Schritte liegen in der Mitte des ETL-Prozesses für Unternehmen, die On-Premises-Warehouses verwenden. Skalierbare Cloud Data Warehouses haben jedoch einen etwas anderen Prozess hervorgebracht, der als Extract, Load, Transform (ELT) bezeichnet wird; bei diesem Prozess können Unternehmen Rohdaten in Data Warehouses laden und die Daten dann zum Zeitpunkt der Nutzung transformieren.

Vorteile und Herausforderungen der Datentransformation

Unternehmen aller Art müssen ihre Daten für eine Vielzahl von Geschäftsvorgängen analysieren, vom Kundendienst bis zum Lieferkettenmanagement. Außerdem benötigen sie Daten, um die wachsende Zahl automatisierter und intelligenter Systeme in ihrem Unternehmen zu speisen.

Um einen Einblick in diese Vorgänge zu erhalten und sie zu verbessern, benötigen Unternehmen qualitativ hochwertige Daten in Formaten, die mit den Systemen kompatibel sind, welche die Daten nutzen.

Datentransformation ist eine entscheidende Komponente eines Datenprogramms, da sie folgende Vorteile bietet:

  • höhere Datenqualität
  • geringere Anzahl von Fehlern, zum Beispiel weniger fehlende Werte
  • schnellere Abfragen und Abrufzeiten
  • weniger Ressourcen für die Datenmanipulation
  • bessere Datenorganisation und -verwaltung
  • besser nutzbare Daten, insbesondere für Advanced Business Intelligence oder Analytics

Der Datentransformationsprozess kann jedoch komplex und kompliziert sein. Unternehmen stehen unter anderem vor folgenden Herausforderungen:

  • hohe Kosten für Transformations-Tools und professionelles Fachwissen
  • erhebliche Rechenressourcen, wobei die Intensität einiger lokaler Transformationsprozesse andere Vorgänge verlangsamen kann
  • Schwierigkeiten bei der Rekrutierung und Bindung von qualifizierten Datenexperten, die für diese Arbeit erforderlich sind, wobei Datenexperten heute zu den gefragtesten Arbeitskräften gehören
  • die Schwierigkeit, die Datentransformationsaktivitäten richtig auf die datenbezogenen Prioritäten und Anforderungen des Unternehmens abzustimmen
Vor- und Nachteile von Datentransformation
Abbildung 1: Welche Vor- und Nachteile mit Datentransformation verbunden sind.

Gründe für Datentransformation

Unternehmen müssen in der Lage sein, aus ihren Daten Erkenntnisse zu gewinnen, um auf dem digitalen Markt erfolgreich konkurrieren, Abläufe optimieren, Kosten senken und die Produktivität steigern zu können. Außerdem benötigen sie Daten, um Systeme zu speisen, die künstliche Intelligenz, maschinelles Lernen, natürliche Sprachverarbeitung und andere fortschrittliche Technologien nutzen.

Um genaue Einblicke zu gewinnen und den korrekten Betrieb intelligenter Systeme zu gewährleisten, müssen Unternehmen Daten aus verschiedenen Quellen sammeln und zusammenführen und sicherstellen, dass die integrierten Daten von hoher Qualität sind.

Hier spielt die Datentransformation die Hauptrolle, indem sie sicherstellt, dass die von einem System erfassten Daten mit den Daten anderer Systeme kompatibel sind und dass die kombinierten Daten letztendlich für die Verwendung in den Systemen, die sie benötigen, geeignet sind. Beispielsweise müssen Datenbanken nach einer Unternehmensübernahme zusammengeführt, in ein Cloud Data Warehouse übertragen oder für Analysen zusammengeführt werden.

Beispiele für Datentransformation

Es gibt verschiedene Methoden der Datentransformation, darunter:

  • Aggregation, bei der Daten aus mehreren Quellen gesammelt und in einem einzigen Format gespeichert werden
  • Attributkonstruktion, bei der neue Attribute hinzugefügt oder aus vorhandenen Attributen erstellt werden
  • Diskretisierung, bei der kontinuierliche Datenwerte in Datenintervalle mit bestimmten Werten umgewandelt werden, um die Daten für die Analyse besser handhabbar zu machen
  • Generalisierung, bei der Datenattribute auf niedriger Ebene in Datenattribute auf höherer Ebene umgewandelt werden (zum Beispiel Umwandlung von Daten aus mehreren Feldern, die nach Alter unterteilt sind, in die allgemeineren Attribute jung und alt), um einen umfassenderen Überblick über die Daten zu erhalten
  • Integration, ein Schritt, bei dem Daten aus verschiedenen Quellen in einer einzigen Ansicht kombiniert werden
  • Manipulation, bei der die Daten verändert werden, um sie lesbarer und übersichtlicher zu machen
  • Normalisierung, ein Prozess, bei dem Quelldaten in ein anderes Format umgewandelt werden, um das Auftreten doppelter Daten zu begrenzen
  • Glättung, bei der Algorithmen eingesetzt werden, um das Rauschen in Datensätzen zu reduzieren und so effizienter und effektiver Trends in den Daten zu erkennen

Tools zur Datentransformation

Datenexperten stehen eine Reihe von Tools zur Verfügung, die den ETL-Prozess unterstützen. Diese Technologien automatisieren viele der Schritte innerhalb der Datentransformation und ersetzen einen Großteil, wenn nicht sogar alle, der manuellen Skripterstellung und der manuellen Kodierung, die einen großen Teil des Datentransformationsprozesses zuvor ausmachten.

Es sind sowohl kommerzielle als auch Open-Source-Tools für Datentransformation erhältlich, wobei einige Optionen für On-Premises-Transformationsprozesse und andere für Cloud-basierte Umwandlungsaktivitäten konzipiert sind.

Darüber hinaus konzentrieren sich einige Datentransformations-Tools auf den eigentlichen Datentransformationsprozess, das heißt auf die Verarbeitung der für die Umwandlung der Daten erforderlichen Aktionen. Andere ETL-Tools auf dem Markt sind jedoch Teil von Plattformen, die eine breite Palette von Funktionen für die Verwaltung von Unternehmensdaten bieten.

Zu den Optionen gehören IBM InfoSphere, IBM DataStage, Matillion, SAP Data Services und Talend.

Diese Definition wurde zuletzt im November 2022 aktualisiert

Erfahren Sie mehr über Datenverwaltung