peterschreiber.media - stock.ado
Auf welche Data-Lake-Technologien Unternehmen setzen sollten
Data Lakes auf Basis von Apache Hadoop sind bisher kein Erfolgsmodell geworden. Doch was sind die Gründe für das Scheitern? Und was kommt nach Hadoop?
Das Software-Framework Hadoop als Grundlage des Data-Lake-Konzepts war der technologische Wegbereiter zahlreicher Big-Data-Initiativen. Das Versprechen der Data Lakes: Riesige Datenmengen aus unterschiedlichen Systemen schnell und kostengünstig verarbeiten und auswerten zu können.
Doch Hadoop-basierte Data Lakes sind kein Erfolgsmodell geworden. Was sind die Gründe für das Scheitern? Und was kommt nach Hadoop?
Data Lakes lassen Hadoop hinter sich
Laut verschiedener Analysten werden bis 2020 etwa 30 Prozent der Data Lakes auf relationalen Datenbankmanagementsystemen (RDBMS) basieren – zu gleichen oder sogar niedrigeren Kosten als Hadoop-Systeme. Die Analysten bescheinigen relationalen Datenbanken eine bessere Anwendungsleistung, da der Großteil der Daten im Data Lake ebenfalls relational ist.
Vor diesem Hintergrund überraschen die jüngsten Entwicklungen nicht: Hadoop-Pionier MapR kämpft ums Überleben und Hadoop-Spezialist Cloudera steht unter Druck. Viele Unternehmen haben hohe Summen in Data Lakes investiert, die einen geringen oder gar keinen geschäftlichen Mehrwert liefern. Es ist an der Zeit, dass die Technologiebranche eine ehrliche Bilanz zieht.
Viel Aufwand, wenig Erfolg
Viele Data-Lake-Projekte sind gescheitert, da sie bloße Prestigeprojekte von IT-Abteilungen waren, ohne klare Verbindung zu den Geschäftszielen oder operativen Prozessen. Wenn die Strategie für einen ineffizienten Data Lake darin besteht, ihn nach dem Lift-and-Shift-Prinzip unverändert von Hadoop in einen Objektspeicher zu migrieren, dann wird noch mehr Geld unnötig investiert – ganz zu schweigen von zusätzlichen Kosten für weitere Entwicklungszeit. Leider entscheiden sich viele große Unternehmen, die es eigentlich besser wissen sollten, für diesen Weg.
Gescheiterte Data-Lake-Projekte sind oft Folge einer toxischen Kombination aus einer Entscheidung für die falsche Technologie und einer unzulänglichen Herangehensweise an Datenverwaltung und -integration. Wenn die IT-Abteilung davon ausgeht, dass im Datenmanagement die Einhaltung des ACID-Prinzips (Atomicity, Consistency, Isolation, Durability) ausreicht, um für verlässliche und konsistente Daten zu sorgen, dann spielt die Wahl der Technologieplattform keine Rolle mehr. Das Scheitern ist bereits vorprogrammiert.
Objektspeicher brauchen Datenstrategie
Erfolgversprechend hingegen ist eine Datenstrategie, die drei Aspekte umfasst:
- Eine mehrschichtige Datenarchitektur;
- einen Ansatz für ein Minimum Viable Product (MVP) für die Datenintegration, das heißt, die Datenintegration entspricht einer minimal funktionsfähigen Lösung, so dass der Funktionsbedarf mit geringem Aufwand erreicht wird;
- einen agilen, inkrementellen Ansatz für eine robustere Integration der wichtigsten Daten
Auf diese Weise lassen sich Geschäftsprozesse durchgängig optimieren und das Datenmanagement liefert einen echten geschäftlichen Mehrwert.
Ein Großteil der komplexen, multistrukturierten Daten, die heute ungeprüft in Hadoop-basierten Data Lakes liegen, wird sich letztlich im Objektspeicher befinden. Deshalb sollte der Fokus darauf liegen, einen robusten Zugriff auf Objektspeicher zu ermöglichen. Allerdings sollte sich ein Großteil der strukturierten und halbstrukturierten Interaktionsdaten in der bestehenden Data-Analytics-Plattform befinden, von wo aus sie sich nahtlos in die Transaktionsdaten integrieren lassen, die dort bereits verwaltet werden.
Nicht jeder Data Lake ist ein Datensumpf – und wie alle Technologien hat auch der Hadoop Stack einen Sweet Spot. Aber die technologische Entwicklung führt weg von Datensilos, die sich als integrierte Datenspeicher ausgeben, nur weil sie sich auf demselben Hardware-Cluster befinden. Und auch ein verteiltes Dateisystem und eine SQL-Engine, die sich als vollwertiges analytisches Datenbankmanagementsystem ausgeben, sind keine zukunftssichere Technologie.
Komplexität und hohe Kosten überwinden
Unternehmen, die ihre Investition in Hadoop verdoppeln, widersetzen sich dieser technologischen Entwicklung. Und wenn sie auf eine angesagte, aber unerprobte Technologie setzen, um sich aus einem Datenmanagementloch zu befreien, haben sie nicht aus den jüngsten Entwicklungen gelernt. Vielmehr verurteilen sie sich selbst dazu, den Misserfolg anderer zu wiederholen.
„Gefragt sind Daten- und Analyseplattformen, die Unternehmen alle Daten bereitstellen – jederzeit und über alle Infrastrukturen hinweg – und damit relevante Analysen liefern.“
Martin Willcox, Teradata
Data Lakes, die auf Hadoop basieren, haben wahrscheinlich keine Zukunft. Aber wie geht es mit dem Konzept Data Lakes insgesamt weiter? Gefragt sind Daten- und Analyseplattformen, die Unternehmen alle Daten bereitstellen – jederzeit und über alle Infrastrukturen hinweg – und somit relevante Analysen liefern. Das Ziel muss sein, die Komplexität, die Kosten und die Unzulänglichkeiten der aktuell üblichen Datenanalyse zu überwinden.
Über den Autor:
Martin Willcox leitet bei Teradata die Technologie-Pre-Sales-Organisation für EMEA und verantwortet Vertrieb und Einsatz von Teradata-Lösungen und -Services in Europa, dem Nahen Osten und Afrika. Davor leitete Willcox die Global Data Foundation von Teradata, deren Aufgabe es ist, die Bereitstellungsmethodik von Teradata zu modernisieren.
Martin Willcox hat einen Bachelor of Science (Honours Degree) in Physik und Astronomie von der University of Sheffield (UK) und ein Postgraduate Certificate in Computing für Handel und Industrie von der Open University (UK).
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.