michelangelus - Fotolia
Unterschiede von Operational Data Stores und Data Warehouses
Sowohl Operational Data Stores als auch Data Warehouses speichern operative Daten, doch die Gemeinsamkeiten enden hier. Beide spielen eine eigene Rolle in Analysearchitekturen.
Viele Datenspezialisten gehen davon aus, dass Operational Data Stores (ODS) und Data Warehouses gleichbedeutend sind. Schließlich ist ein Data Warehouse ein Ort, an dem operative Daten für Analyse und Reporting gespeichert werden.
Das stimmt allerdings nicht ganz. Beide speichern zwar operative Daten, aber in unterschiedlichen Formen und für unterschiedliche Zwecke. Und in vielen Fällen integrieren Unternehmen beide in ihre Analysearchitekturen.
Der Operational Data Store (ODS) ist etwas schwieriger zu bestimmen, da es unterschiedliche Ansichten darüber gibt, was genau er ist und wofür er verwendet wird. Aber im Grunde zieht ein ODS kurzfristig Daten aus mehreren Transaktionsverarbeitungssystemen zusammen, die häufig aktualisiert werden, wenn von den Quellsystemen neue Daten generiert werden.
Operational Data Stores dienen oft als Zwischenspeicher für Daten, die schließlich in ein Data Warehouse oder eine Big-Data-Plattform zur langfristigen Speicherung weitergeleitet werden.
Nutzen und Vorteile eines ODS
Ein ODS enthält in der Regel detaillierte Transaktionsdaten, die noch konsolidiert, aggregiert und in konsistente Datensätze zum Laden in ein Data Warehouse umgewandelt werden müssen. Unter dem Gesichtspunkt der Datenintegration kann ein ODS also nur das erste und dritte Element des ETL-Prozesses (Extract, Transform, Load) umfassen, der typischerweise verwendet wird, um Daten aus operativen Systemen abzurufen und für die Analyse zu harmonisieren.
In diesem Sinne kann man sich einen Operational Data Store als einen Trichter vorstellen, der Rohdaten aus verschiedenen Quellsystemen aufnimmt und dazu beiträgt, den Prozess der Versorgung von Business-Intelligence- und Analytics-Systemen mit verfeinerten Versionen dieser Daten zu erleichtern.
Der gesamte ETL-Prozess wird nachgelagert abgewickelt, wodurch die Arbeitslasten der Datentransformation rationalisiert und die erforderlichen Verarbeitungs-Pipelines zwischen dem ODS und den Quellsystemen, mit denen es verbunden ist, minimiert werden.
Einige Anwender betrachten den Operational Data Store jedoch auch als eine eigenständige Business-Intelligence- und Analyseplattform. In diesem Szenario kann ein ODS dazu verwendet werden, Datenanalysen nahezu in Echtzeit durchzuführen, die darauf abzielen, taktische Erkenntnisse aufzudecken, die Unternehmen schnell auf den laufenden Geschäftsbetrieb anwenden können – zum Beispiel zur Erhöhung der Einzelhandelsbestände beliebter Produkte auf der Grundlage aktueller Verkaufsdaten.
Im Vergleich dazu unterstützen Data Warehouses in der Regel die historische Analyse von Daten, die über einen längeren Zeitraum gesammelt wurden.
Abhängig von der spezifischen Anwendung kann ein ODS, das für die Datenanalyse verwendet wird, mehrmals täglich, wenn nicht sogar stündlich oder sogar noch häufiger aktualisiert werden.
Echtzeit-Datenintegrationswerkzeuge, wie zum Beispiel Change-Data-Capture-Software, können genutzt werden, um solche Aktualisierungen zu ermöglichen. Darüber hinaus kann ein gewisses Maß an Datenbereinigung und Konsistenzprüfungen im ODS angewandt werden, um sicherzustellen, dass die Analyseergebnisse korrekt sind.
Operational-Data-Store- und Data-Warehouse-Design
Bei der Abwägung, ob man ein Operational Data Store oder ein Data Warehouse einsetzen soll, hilft der Hinweis, dass man ein ODS potenziell auf einer leichteren Datenplattform aufbauen kann, insbesondere wenn es in erster Linie als temporärer Zwischenspeicher für Daten verwendet wird.
Beispielsweise kann eine ODS-Architektur auf der Open-Source-Datenbank MySQL oder dem Cloud-basierten Dienst Amazon Simple Storage Service (S3) als Alternative zu traditionellen Data-Warehouse-Plattformen wie Oracle, Microsoft SQL Server, IBM DB2 und Teradata basieren. In Big-Data-Umgebungen können Hadoop-Cluster einen ODS-Staging-Bereich für die Einspeisung von Daten entweder in ein Data Warehouse oder in einen anderen Cluster bieten, der auf dem Open-Source-Framework für verteilte Verarbeitung aufbaut.
Während Daten in der Regel relativ schnell ein ODS durchlaufen, um Platz für neue Daten zu schaffen, die hinter dem ODS auftauchen, sind die Dinge in einem Data Warehouse anders. Der Zweck besteht darin, ein Archiv von Daten zu schaffen, die analysiert werden können, um die Unternehmensleistung zu verfolgen und betriebliche Trends zu identifizieren, um die strategische Entscheidungsfindung von Unternehmen und Geschäftsführern zu lenken.
Ein Data Warehouse kann regelmäßig aktualisiert werden – in manchen Fällen nächtlich, in anderen Fällen wöchentlich oder monatlich. Es handelt sich jedoch um eine statischere Umgebung als ein ODS: Daten werden in der Regel hinzugefügt, aber nicht gelöscht, insbesondere im Fall eines Enterprise Data Warehouse (EDW), das als einzige Quelle für konsolidierte und bereinigte Daten aus allen Betriebsabläufen eines Unternehmens konzipiert ist. EDWs sind in der Regel große und komplexe Plattformen – eine Kombination, die ihre Bereitstellung zu einer Herausforderung machen kann.
ODS versus Data Mart
Eine weitere Facette der Diskussion über Operational Data Store versus Data Warehouse ist der Vergleich zwischen einem ODS und einem Data Mart. Data Marts sind zweckbestimmte Data-Warehouse-Ableger – im Wesentlichen kleinere Warehouses, die Daten speichern, welche sich auf einzelne Geschäftseinheiten oder bestimmte Themenbereiche beziehen.
Ein Data Mart und ein ODS können hinsichtlich der Speicherkapazität in der gleichen Liga spielen, aber ansonsten unterscheiden sie sich in der gleichen Weise wie EDWs und ODSs. Wie ihre größeren Brüder sind Data Marts ein Repository für historische Daten, die für die Analyse vollständig gesäubert und aggregiert wurden.
Zwei weitere Dinge, die bei Operational Data Stores zu beachten sind: Erstens sind sie nicht dasselbe wie eine operative Datenbank. Letztere ist die in ein Transaktionssystem integrierte Datenbank – sie ist der Ort, von dem die in ein ODS fließenden Daten kommen. Anders ausgedrückt: Transaktionsdaten werden zunächst in operationellen Datenbanken verarbeitet und dann in ein ODS verschoben, um ihre analytische Reise zu beginnen.
Zweitens werden operative Datenspeicher manchmal mit MDM-Systemen (Master Data Management) gleichgesetzt. MDM-Prozesse ermöglichen es Unternehmen, gemeinsame Stammdatensätze über Kunden, Produkte und Lieferanten zu erstellen. Die Stammdaten können dann über einen MDM-Hub an Transaktionssysteme zurückgegeben werden, wo die Daten verwaltet und gespeichert werden.
Einige Unternehmen bauten schon früh MDM-Funktionen in ODS-Plattformen ein, aber dieser Ansatz scheint in den letzten Jahren nachgelassen zu haben – zum Teil deshalb, weil der MDM-Markt nicht so wächst, wie es sich die Befürworter erhofft hatten, was wiederum ein Ergebnis der Komplexität von MDM ist.