Datenvirtualisierung mit DataOps: Was steckt dahinter?

Die mittlerweile anfallenden Datenmassen können Firmen nur sinnvoll verarbeiten, wenn sie diese virtualisieren. DataOps bietet einen passenden Ansatz.

Datenvirtualisierung vereinfacht und vereinheitlicht das Visualisieren und Transformieren von Unternehmensdaten. Diese Verbesserung soll zu einem Datenzugriff in Echtzeit führen – und zwar für alle Nutzergruppen, die Datenzugang benötigen.

Datenvirtualisierungsplattformen erhöhen die Informationsagilität, indem sie eine virtuelle Datenebene über die Datensilos legen. Per SQL-Abfrage lassen sich die Speicherorte logisch einbinden und aus ihnen Daten abstrahieren, die dann für verschiedene Datenservices bereitstehen.

Die genutzten Daten werden nicht mehr mit klassischen Integrations-Tools wie Informatica PowerCenter, IBM DataStage, Talend, SAS Data Integration Server und anderen physisch dupliziert und auf unzählige Datensilos verteilt. Dadurch sinkt das Risiko für Datenlecks und Hacks. Allerdings lässt sich ein Nachteil auch bei der analytischen Massenabfrage über die Plattform nicht ganz ausschließen: Erfolgt die SQL-Abfrage auf die Daten eines ERP-Systems im laufenden Betrieb, kann es sein, dass die ERP-Software instabil läuft.

Auf das Virtualisieren per SQL-Abfrage setzen unter anderem DataVirtuality, Denondo und TIBCO. Selbst klassische Datenbanken bieten Werkzeuge für virtuelle Tabellen an. SAP-HANA-Anwender können über Smart Data Service externe Datenquellen anbinden. Auch in die NoSQL-Technik hält die Datenvirtualisierung Einzug, wie DataWerks zeigt.

Ganz anders gehen Anbieter von Datenintegrationssoftware wie Informatica, IBM oder Talend vor. Ihre Tools nutzen eine API-Anfrage, um die Virtualisierung zu starten. Diesen Weg schlägt auch Delphix ein. Die Delphix Dynamic Data Plattform basiert auf der DataOps-Technologie und fokussiert Datenbereitstellung, Datenqualität sowie Compliance.

Herausforderung Datenbereitstellung

Inwieweit die Datenbereitstellung Unternehmen zu schaffen macht, geht aus einer Studie des Beratungsunternehmens 451 Research hervor. So gaben 47 Prozent der befragten Unternehmen an, dass es bei ihnen vier bis fünf Tage dauert, eine neue Datenumgebung einzurichten. Es ist ärgerlich, wenn IT-Infrastruktur und Software Development Life Circle (SDLC) Tools zwar schnell sind, aber die Softwareentwickler wegen fehlender Daten nicht loslegen können.

Die Masse an Daten erschwert es, die Informationen zugänglich zu machen. Hat eine Datenquelle zum Beispiel 500 Terabyte und benötigen Unternehmen fünf Kopien dieser Quelle, so entstehen 2.500 Terabyte. Diese Datenmengen zu kopieren, zu speichern und zu transportieren kostet Zeit und verursacht einen immensen Bedarf an Storage und Netzwerk. DataOps ändert das grundsätzlich.

Der kollaborative Datenmanagementansatz DataOps aus Analystensicht

Bei DataOps handelt es sich um eine kollaborativen Datenmanagementansatz, der Menschen, Prozesse und Technologien koordiniert, damit sich ein effizienter Datenumgang im Unternehmen etabliert.

Das Analystenhaus Gartner definiert DataOps in seiner Veröffentlichung Innovation Insight for DataOps als „Reaktion auf Herausforderungen bei der Bereitstellung und Verbesserung von Daten- und Analyseprojekten im gesamten Unternehmen. Daten- und Analyseführungskräfte können DataOps nutzen, um organisatorische Veränderungen und Vorhersagbarkeit für die Nutzung von Daten ohne massive Investitionen voranzutreiben.“

Gegenüber SD Times bezeichnet Nick Heudecker, Analyst bei Gartner und Hauptautor des Gartner Reports, DataOps als „eine kollaborative Datenmanagementpraxis, die sich wirklich auf die Verbesserung der Kommunikation, Integration und Automatisierung des Datenflusses zwischen Managern und Verbrauchern von Daten innerhalb eines Unternehmens konzentriert.“

Prinzip und Qualitätsarbeit der DataOps-Technologie

Der Mensch muss die kollaborative Datenmanagementpraxis bewusst angehen und betreiben, um die nötigen Änderungen bei den Prozessen, in der Organisation und in der Unternehmenskultur anzustoßen. Die Technologie kommt erst danach – und ist mit einer DataOps-Plattform einsatzbereit, die alle möglichen Datenquellen wie Oracle, SAP, SQL, DB2, SAP ASE, Postgres, MongoDB, MySQL automatisiert einbindet.

Die Software liest über eine API-Anfrage die Daten ein und erstellt so viele virtuelle Kopien, wie die Benutzer nachfragen. Die virtuellen Datenkopien haben nur einen Bruchteil des ursprünglichen Volumens, brauchen dadurch 90 Prozent weniger Speicher und lassen sich zu 99 Prozent schneller von A nach B transportieren.

Allerdings muss die Datenqualität stimmen. Denn wer mit schlechten Daten arbeiten, trifft falsche Entscheidungen. Das kann zum Beispiel passieren, wenn sich eine Bank von einer Geschäftseinheit trennt. Die historischen Daten aus dieser Geschäftseinheit sind jedoch immer noch in den Datenbanken der Bank enthalten, fließen in Berechnungen von KI- und Machine-Learning-Modellen ein und verfälschen Ergebnisse.

Von Hand nachträglich alle Referenzen auf die nicht mehr gültigen Datenquellen zu entfernen, ist nahezu unmöglich. Eine DataOps-Plattform identifiziert veraltete Datenquellen, filtert diese heraus und synchronisiert virtuelle Datensätze fortlaufend mit den Quellen. So greift jeder Nutzer auf den aktuellen Datenstand zu.

Außerdem automatisiert eine DataOps-Plattform die Bereitstellung der virtuellen Datenvarianten. Die Daten stehen in Minuten bereit, wofür Unternehmen vorher eine Arbeitswoche oder mehr gebraucht haben. Bei 3.000 bis 4.000 Testumgebungen mit laufend aktualisierten Daten wird das Provisionieren von Testdaten besonders effizient.

Weiteres Automatisieren und zusätzliches Personalisieren

Eine weitere Automatisierungsoption sichert die Datennutzung ab. Das gelingt, wenn eine DataOps-Plattform über Algorithmen vertrauliche Informationen automatisch erkennt und maskiert. Das geschieht während der Datenvirtualisierung. In dem Fall können Nutzer nur auf pseudonymisierte Daten zugreifen, so dass sie diese DSGVO-konform verwenden. Wer zusätzlich automatisierte Richtlinien in Workflows integriert, kann deren Einhaltung über die DataOps-Plattform überwachen.

Einzelne Benutzer, einschließlich Quality Assurance Engineers, Tester und Entwickler, sollten effizient und einfach zusammenarbeiten können, indem sie etwa Lesezeichen gemeinsam nutzen und eine Lesezeichen-Bibliothek für mehrere Workflows erstellen. Ihre DataOps-Plattform sollten sie daher ohne Speicheraufwand schnell zu einer personenbezogenen Datenumgebung mit erweiterten Datenbearbeitungs-Tools wie Lesezeichen, Zurückspulen, Zurücksetzen und Verzweigen ausgestalten können.

Sich intern abstimmen für den sicheren und automatisierten Datenfluss

Die Möglichkeit, Daten schnell dort verfügbar zu machen, wo sie benötigt werden, ist entscheidend für den Geschäftserfolg. Laut der erwähnten Studie von 451 Research sind 65 Prozent der befragten Unternehmen der Ansicht, dass sich mangelnder Zugriff auf die richtigen Daten negativ auf ihre Effizienz, Produktivität und Geschwindigkeit auswirkt.

Sanjeev Sharma, Delphix

„Bei DataOps handelt es sich um eine kollaborativen Datenmanagementansatz, der Menschen, Prozesse und Technologien koordiniert, damit sich ein effizienter Datenumgang im Unternehmen etabliert.“

Sanjeev Sharma, Delphix

Genau dort setzt die DataOps-Technologie an, indem sie die Datenbereitstellung beschleunigt und automatisiert, die Datenqualität und -konsistenz erhöht und Compliance sicherstellt. Unternehmen können sich mit dieser Technologie eine Datenmanagementpraxis aufbauen, in der die Daten automatisiert und sicher fließen. Allerdings setzt das Verwirklichen der DataOps-Idee zumindest voraus, dass IT-Verantwortliche alle datenrelevanten Prozesse intern mit den Nutzern abstimmen.

Über den Autor:
Sanjeev Sharma, Bestsellerautor von „DevOps Adoption“, ist der erste Global Practice Director for Data Transformation bei Delphix. Sein Unternehmen verfolgt die Mission, Daten in Unternehmen ohne Reibungsverluste bereitzustellen und Innovation zu beschleunigen.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.

Nächste Schritte

Wie DataOps Datenschutz und Datenmanagement vereint.

Die Verantwortung für den Datenschutz nach DSGVO.

Datenschutz: Testdaten und Ersatzwerte sicher generieren.

Erfahren Sie mehr über Datenverwaltung