alunablue - stock.adobe.com
Wie sich Technologien für Datenmanagement verändert haben
Das Datenmanagement und die zugehörigen Anwendungen haben sich in den letzten 30 Jahren verändert. Ein Streifzug durch die Technologielandschaft.
Im Datenmanagement braut sich ein regelrechter Kampf zusammen. Die Branche ist sich einig, dass wir einen schnelleren, flexibleren Weg benötigen, um die ständig wachsenden Datenmengen zu erschließen und zu nutzen.
Das ist allerdings schon alles, worüber Einigkeit unter Experten herrscht. Die Fronten werden über Ideologien und Technologien hinweggezogen. Die harte Wahrheit? Nichts davon ist ein Allheilmittel. Alle Ansätze haben ihre Vorzüge und Nachteile, aber bevor wir diese näher beleuchten, sollten wir uns ansehen, wie alles begann.
Data Warehouse
Das Data-Warehouse-Konzept wurde in den späten 1980er- und frühen 1990er-Jahren in die Praxis umgesetzt. Das Buch Building the Data Warehouse von Bill Inmon wurde 1992 veröffentlicht. Der grundlegende Daten- und Analyseprozess sah damals folgendermaßen aus: Die Daten wurden aus den Transaktionssystemen extrahiert, in einem Staging-Bereich transformiert (unter anderem Datenbereinigung, Validierung und Aggregation) und dann in das Data Warehouse (DWH) zur weiteren Modellierung wie der Erstellung von STAR-Schemata geladen. Darauf lief dann die Business-Intelligence- und Analyse-Software. Kommt Ihnen das bekannt vor? Nun, viele Unternehmen verwenden immer noch diesen 30 Jahre alten Prozess.
Obwohl in den 1990er-Jahren ein enormer Fortschritt erzielt wurde, besteht der Hauptmangel dieses Ansatzes in fehlender Performance, fehlenden granularen Daten für Analysen und einem starren Prozess, der Agilität verhindert. Um eine bessere Leistung zu erzielen, wurden Cube-Technologien entwickelt und das Data Warehouse wurde größer. Data Marts kamen ins Spiel, um die Reaktionsfähigkeit des Unternehmens zu verbessern, und der operative Datenspeicher (ODS) ergänzte die DWH-Funktionen durch operative Berichte, Kontrollen und Entscheidungsfindung.
Der Aufbau eines zentralisierten DWH war jedoch zeit- und kostenintensiv und es war nach wie vor ein Problem, schnell detaillierte Erkenntnisse zu gewinnen. Außerdem konnten DWH nur strukturierte Daten verarbeiten, aber mit dem Internet und dem Beginn der Digitalisierung waren immer mehr Daten unstrukturiert.
Data Lake
Um Erkenntnisse aus allen Datentypen zu gewinnen, wurde die Idee des Data Lake entwickelt. Der Begriff wurde erstmals im Jahr 2010 von James Dixon, einem der Mitbegründer von Pentaho, geprägt. In einem Blog-Beitrag schreibt er: „Wenn Sie sich einen Data Mart als ein Depot mit abgefülltem Wasser vorstellen – gereinigt, verpackt und strukturiert für den einfachen Verbrauch – dann ist der Data Lake ein großes Gewässer in einem natürlicheren Zustand. Der Inhalt des Data Lake kommt aus einer Quelle und verschiedene Nutzer des Data Lake können kommen, um ihn zu untersuchen, einzutauchen oder Proben zu nehmen.“
Das Versprechen des Data Lake ist es, unstrukturierte und halbstrukturierte Daten zu erschließen, den Zugriff auf granulare Daten zu beschleunigen und die Kosten zu senken. Der Hauptanwendungsfall für den Data Lake ist Machine Learning und Data Science, im Gegensatz zu BI und Analytics in der DWH-Welt. Während für das DWH SQL-Kenntnisse ausreichen, erfordert der Data Lake neue Prozesse und Sprachen wie Hadoop, Spark und Scala, Python oder HiveQL, um nur die wichtigsten zu nennen. Und obwohl die Schreibgeschwindigkeit hoch ist, ist die Abfrage relativ langsam im Vergleich zur schnellen Lesegeschwindigkeit des DWH, wo die Daten für Analysen optimiert sind. Und auch wenn Experten auf der Strata-Hadoop World im Jahr 2012 behaupteten, dass der Data Lake das DWH auslöschen würde, trat dieses Szenario nie ein.
Cloud-Datenkonzepte vom Data Lakehouse bis zum Data Mesh
Etwa 2016 begannen Cloud-Datenplattformen an Bedeutung zu gewinnen. Damals schätzte Gartner, dass sie nur zehn Prozent des Datenbank-/Analytics-Marktes ausmachten, prognostizierte aber, dass ihr Anteil bis 2022 bei zwei Dritteln liegen wird. Und in der Tat haben viele Unternehmen in den letzten Jahren, zusätzlich angetrieben durch die Pandemie, ihre Migrationspläne beschleunigt.
Die Vorteile der Cloud – die Trennung von Rechen- und Speicherleistung sowie unbegrenzte Rechenleistung, elastische Skalierung, verteilte Systeme – ermöglichen eine schnelle Performance für alle Daten. In dieser neuen Umgebung sind auch neue Konzepte entstanden.
Data Fabric wurde 2014 als spezielles Konzept von NetApp eingeführt. Seitdem hat es sich konzeptionell weiterentwickelt und ist zu einem Paradigma geworden, das von Gartner definiert wird als „ein Designkonzept, das als integrierte Schicht (Fabric) von Daten und Verbindungsprozessen dient“. Der Schwerpunkt der Datenstruktur liegt auf Metadaten und KI, um zusammenhängende Daten in Cloud- und lokalen Datensätzen zu finden.
„Bei so viel Wirbel um neue Tools und neue Konzepte müssen Unternehmen einen kühlen Kopf bewahren und den Hype von der Realität trennen, um die Lösung zu finden, die ihren Datenanforderungen am besten entspricht.“
Michael Krause, ThoughtSpot
Das Data Lakehouse kombiniert das Beste aus einem Data Warehouse und einem Data Lake und bietet konvergierte Workloads für Data-Science- und Analytics-Anwendungsfälle.
Data Mesh ist sowohl ein architektonischer Ansatz als auch ein organisatorisches Konzept. Im Data Mesh ist das Ziel ein Datenprodukt. Die Daten werden nach Domänen organisiert und kontrolliert und sollten nicht verschoben werden.
Kein klarer Gewinner in Sicht
Es ist also eine Menge los. Die alte Welt des DWH und Analytics ist durcheinander gewürfelt worden. Eine Umfrage unter mehr als 300 Datenexperten auf LinkedIn fragte nach der Datenarchitektur, die sie in den nächsten zwei Jahren anstreben. Das Ergebnis? Alle diese Konzepte finden mehr oder weniger den gleichen Zuspruch: Data Mesh liegt bei 29 Prozent, Data Lakehouse und DWH bei jeweils 24 Prozent und der Data Lake bei 23 Prozent.
Zweifellos bilden diese neuen Konzepte die Grundlage für den künftigen digitalen Erfolg. Die Zeit, sie umzusetzen ist jetzt. Allerdings lassen sich diese neuen Architekturen nicht einfach durch den Kauf einer einzigen Technologie erreichen.
Um dies zu verstehen, sollten wir uns den neuen zugrunde liegenden Daten- und Analytics-Prozess genauer ansehen. Die Daten werden nach wie vor mit neuen Tools wie Fivetran oder Stitch aus den Quellsystemen extrahiert, die den Prozess der Datenaufnahme automatisiert haben, und in das Cloud Data Warehouse (oder wie auch immer man es bezeichnen möchte) geladen.
Neue Transformations-Tools, die es vor drei Jahren noch nicht gab, wie dbt oder Supergrain, werden zur Transformation innerhalb des DWH verwendet. In dieser Cloud-Umgebung, in der die Geschwindigkeit und der Umfang der Daten eine wichtige Rolle spielen, hat sich der ETL-Prozess (Extract, Transform, Load) zu einem ELT-Prozess (Extract, Load, Transform) gewandelt. Neue Cloud Analytics Tools verbinden sich dann direkt mit der Cloud-Datenplattform und führen die Analyse direkt dort aus. Abgesehen davon ist häufig ein ETL-/ELT-Prozess erforderlich, um die Erkenntnisse in die Anwendungen zurückzuspeisen, aus denen die Daten stammen, um schnelle Maßnahmen zu ermöglichen.
Bei so viel Wirbel um neue Tools und neue Konzepte müssen Unternehmensverantwortliche einen kühlen Kopf bewahren und den Hype von der Realität trennen, um die Lösung zu finden, die ihren Datenanforderungen am besten entspricht.
Aber abgesehen von der Technologie ist die wichtigste Frage, die sich Unternehmen stellen sollten: Haben sich auch unsere Praktiken, Prozesse und Denkweisen geändert? Denken wir immer noch an ETL, oder ist ELT bereits in unseren Köpfen angekommen? Denn eines ist klar: Unternehmen können es sich nicht leisten, 30 Jahre alte Denkweisen und Fähigkeiten zu verwenden und nicht mit den neuen Entwicklungen, die die Cloud mit sich bringt, Schritt zu halten.
Über den Autor:
Michael Krause, Diplom-Informatiker, ist Customer Success Manager bei ThoughtSpot. Er hat über 17 Jahre Erfahrung im Bereich Business Intelligence und war unter anderem bei Unternehmen wie MicroStrategy, Spotfire und TIBCO tätig. Michael Krause startete seine IT Karriere Ende der 90er bei einem Portal Anbieter in Bremen und später Singapur. Heute lebt er im Kanton Aargau in der Schweiz und ist begeisterter Faustball Spieler.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.