carloscastilla - Fotolia
Logische Data Lakes: Virtualisierung legt den Sumpf trocken
Wie sollten Unternehmen Daten speichern? Bei großen Mengen setzen sie häufig auf Data Lakes. Diese haben Schwächen, die durch Datenvirtualisierung beseitigt werden.
Die technische Entwicklung im Bereich Big Data verläuft nicht linear, sondern gleicht eher einer Achterbahnfahrt. Hadoop-Distributionen werden immer komplexer, die verfügbaren Technologien decken eine wachsende Zahl an Anwendungsfällen ab.
Zeitgleich prognostizieren die Branchenanalysten von Gartner, dass Hadoop schon bald obsolet wird. Zu groß sei die Komplexität der Stacks, zu gering ihr praktischer Nutzen. Gleichzeitig verbinden neue Angebote großer Cloud-Anbieter das SaaS-Konzept mit Big Data.
Die Unterschiede zwischen dem Hadoop Distributed File System (HDFS) und Amazon S3 oder Azure Data Lake Storage verschwinden zusehends. Cloud-MPP-Lösungen der nächsten Generation wie Snowflake und Redshift sind von SQL-on-Hadoop-Systemen wie Spark oder Presto kaum zu unterscheiden – Qubole und Databricks liefern hierfür gute Beispiele.
Datensee oder Datensumpf?
Inmitten dieser konstanten Weiterentwicklung steht jedoch ein Konzept weiter im Mittelpunkt: der Data Lake. Es handelt sich um einen großen Datenspeicher, der – anders als Datenbanken – Rohdaten bereithält. Diese können strukturiert oder unstrukturiert sein und stammen aus den unterschiedlichsten Quellen.
Trotz aller Vorteile sind Data Lakes jedoch seit Jahren in der Kritik. Forbes hat schon 2016 erklärt, warum Data Lakes in Wirklichkeit schlecht sind, und immer öfter ist mittlerweile auch vom undurchdringlichen „Datensumpf“ die Rede, aus dessen trübem Wasser sich Insights nur noch schwer herausfischen lassen. Drei besonders große Herausforderungen beschränken seit Jahren den ROI, verzögern Projekte, senken ihren Mehrwert und steigern die Betriebskosten:
- Erst laden, dann fragen: In vielen Data Lakes besitzt niemand das Gewaltmonopol. Eine gute Governance ist aber unverzichtbar, um doppelte Datensätze und Datenmüll zu vermeiden. Darüber hinaus lassen sich aufgrund rechtlicher und technischer Hürden oft nicht alle Daten in den Data Lake übertragen – dieses Problem ist für Verantwortliche ebenfalls schwer zu lösen.
- Hohe Erwartungen an Rohdaten: Zu oft wird das Pferd vom Schwanz her aufgezäumt: Unternehmen legen erst den Data Lake an, definieren anschließend die zulaufenden Daten-Pipelines und beschäftigen sich erst im dritten Schritt mit der Frage, was das Projekt überhaupt konkret erreichen soll. Am besten beginnt man jedoch mit der Frage, welche Daten in den See gelangen sollen, zu welchem Zweck und mit welcher Granularität. So lassen sich Erwartungen besser managen und Use Cases besser erarbeiten.
- Komplexität und fehlendes Know-how: Die Verwaltung eines lokalen Hadoop-Clusters oder die Feinabstimmung eines Cloud-basierten Systems sind komplexe Aufgaben, die Business-Anwender selbstverständlich nicht leisten können. Die benötigten Experten sind jedoch auf dem Arbeitsmarkt nicht leicht zu finden. Außerdem ergeben sich gewaltige Zugangshürden: Wenn nur geschulte Fachleute aus dem Data Lake schlau werden, bleibt die praktische Nutzung zwangsläufig beschränkt.
Datenvirtualisierung schafft Abhilfe
Datenvirtualisierung bietet einen Ausweg aus diesem Dilemma. Mit Data Lakes verbindet dieser Ansatz der Grundgedanke, Endanwendern ausnahmslos alle Daten zur Verfügung zu stellen. In beiden Architekturen wird der breite Zugriff auf große Datenmengen genutzt, um Business Intelligence, Analytik und andere sich entwickelnde Trends wie Machine Learning (ML) und künstliche Intelligenz (KI) besser zu unterstützen.
Es gibt aber auch zahlreiche Unterschiede bei der konkreten Implementierung. Die prinzipielle Möglichkeit, die Ansätze gewinnbringend zu kombinieren, wurde bereits 2012 ins Spiel gebracht. Mittlerweile sind entsprechende Architekturen, sogenannte logische Data Lakes, durchaus verbreitet. Es handelt sich um physische Data Lakes, auf denen ein virtueller Layer ruht.
„Logische Data Lakes vereinen die Vorteile klassischer physischer Data Lakes und der Datenvirtualisierung. Entwicklungszyklen werden kürzer, die Betriebskosten sinken und der ROI steigt.“
Rudolf Schröder, Denodo Technologies
Die Grundzüge logischer Data Lakes sind schnell erläutert: Erstens nutzen sie einen logischen Ansatz, um den Zugriff auf alle Datenbestände, unabhängig von Ort und Format, ohne Replikation zu ermöglichen. Das Kopieren von Daten ist nicht länger eine Notwendigkeit, sondern rein optional. Zweitens ermöglichen sie die Definition komplexer, abgeleiteter Modelle, die Daten aus einem der angeschlossenen Systeme verwenden und deren Herkunft, Transformationen und Definitionen nachvollziehbar machen. Drittens sind sie um ein großes Datensystem (den physischen Data Lake) herum aufgebaut und können dessen Rechenleistung und Speicherfähigkeiten mit der größtmöglichen Effizienz nutzen.
Durch Virtualisierung werden viele Nachteile der Data Lakes ausgeglichen und die oben beschriebenen Herausforderungen gelöst:
- Erst laden, dann fragen: Über die logische Architektur kann auf Daten zugegriffen werden, die an ihrem ursprünglichen Ort verharren und zuvor nicht erst in den Data Lake kopiert werden mussten. Wo der Zugriff auf die ursprüngliche Quelle aus Performance-Gründen nicht optimal ist, lädt die Virtualisierungslösung die Daten in den physischen Data Lake. Ähnlich verhält es sich mit Datenbereinigungen und Transformationen. Bei Bedarf können die Daten einfach persistiert werden. In anderen Fällen ist eine Berechnung auf Abruf möglich. Dabei wird die Data Lake Engine als eine Art ETL-Prozess genutzt.
- Hohe Erwartungen an Rohdaten: In einem logischen System können Rohdaten in den ursprünglichen Quellen verbleiben, lediglich nützliche Daten wandern in das System. Innerhalb des logischen Modells lassen sich Daten kuratieren, transformieren, aggregieren und kombinieren. Im Data Lake wird nur noch gespeichert, was dort tatsächlich gebraucht wird. Das gilt zum Beispiel auch für Daten aus externen Quellen oder für Daten, deren Quelle keinen eigenen Speicherplatz aufweist, was zum Beispiel bei IoT-Sensoren häufig der Fall ist. Der virtuelle Layer über dem Data Lake zwingt also niemanden dazu, in jeder Situation direkt auf Datenquellen zuzugreifen, sondern er ermöglicht einen flexiblen Ansatz, bei dem sich das beste Vorgehen von Fall zu Fall abwägen lässt.
- Komplexität: Einer der vielleicht größten Vorteile des virtuellen Layers gegenüber dem Data Lake besteht darin, dass Business-Anwender nicht mehr direkt mit dem Backend-System interagieren müssen. Er bietet eine einfach zu bedienende SQL-Engine für Lesezugriffe, Daten-Uploads und die Verarbeitung komplexer Abfragen, die von der Komplexität des Backends abstrahiert. Darüber hinaus ermöglicht ein benutzerfreundlicher Datenkatalog einen einfachen Zugriff auf Datenmodell, Datenzeile, Beschreibungen und Datenvorschauen. Die Anforderungen an die IT werden somit reduziert und die Nutzung des Data Lakes auf ein größeres, nicht-technisches Publikum ausgedehnt.
Fazit
In der schnelllebigen Big-Data-Welt sollten Unternehmen ein besonderes Augenmerk auf die Frage legen, welche Technologien zukunftsfähig sind und welche nicht. Logische Data Lakes vereinen die Vorteile klassischer physischer Data Lakes und der Datenvirtualisierung. Entwicklungszyklen werden kürzer, die Betriebskosten sinken und der ROI steigt. Vor allem aber verbreitert sich die Nutzerbasis, weil die Nutzung nicht mehr so komplex ist wie die Technologie selbst. Mithilfe des virtuellen Layers gelingt es, den Datensumpf trockenzulegen – und den Mehrwert von Big Data für das Unternehmen zu maximieren.
Über den Autor:
Rudolf Schröder ist Sales Executive beim Denodo Technologies. Denodo ist im Bereich der Datenvirtualisierung aktiv und bietet Unternehmen agile Lösungen für Datenintegration, Datenabstraktion und Datendienste in Echtzeit an.
Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!