thodonal - stock.adobe.com

Migration von Hadoop auf moderne Cloud-Plattformen

Viele Hadoop-Umgebungen sind mit der Zeit aufwendig und nicht mehr nutzbringend geworden, so dass Anwender eine Migration in die Cloud erwägen. Dies sind die Gründe dafür.

Unternehmen sind auf ihre großen Daten- und Analyseplattformen angewiesen, um Innovations- und digitale Transformationsstrategien zu unterstützen. Viele Hadoop-Nutzer haben jedoch mit Komplexität, nicht skalierbarer Infrastruktur, exzessivem Wartungsaufwand und Ineffizienz zu kämpfen. Dieser Beitrag schildert einige Erfahrungswerte von Unternehmen wie Databricks und deren Partnern, wie sich die Navigation der Hadoop-Migrationen zu modernen Cloud-Plattformen bewältigen lässt.

Herausforderungen der Hadoop-Architekturen

Teams wenden sich aus verschiedenen Gründen von Hadoop ab. Oft ist es eine Kombination aus „Push“ und „Pull“: Die Einschränkungen der bestehenden Hadoop-Systeme zwingen IT-Teams dazu, Hadoop-Alternativen in Erwägung zu ziehen. Gleichzeitig werden sie auch von neuen Optionen, die durch moderne Cloud-Datenarchitekturen ermöglicht werden, angezogen. Während die Anforderungen an die Architektur für verschiedene Teams unterschiedlich sind, haben wir eine Reihe von gemeinsamen Faktoren bei Anwendern gesehen, die Hadoop verlassen wollen:

  • Schlechte Datenzuverlässigkeit und SkalierbarkeitEin pharmazeutisches Unternehmen hatte Probleme mit seinen Hadoop-Clustern, die weder für größere Forschungsprojekte erweitert noch nach unten skaliert werden konnten, um Kosten zu reduzieren. Das Unternehmen hatte es satt, dass seine Hadoop-Jobs fehlschlugen, wodurch Daten in der Schwebe blieben und die Produktivität des Teams beeinträchtigt wurde.
  • Zeit- und Ressourcenkosten: Ein Einzelhandelsunternehmen hatte angesichts der Zeit und des Personalbestands, die für die Wartung, das Patching und die Aktualisierung komplizierter Hadoop-Systeme erforderlich waren, übermäßige betriebliche Belastungen zu bewältigen. Ein neu gegründetes Medienunternehmen litt unter einer verringerten Produktivität, da Hadoop viel Zeit für die Konfiguration seiner Systeme aufwendete, anstatt die Mitarbeiter des Unternehmens zu entlasten.
  • Blockierte Projekte:Ein Logistikunternehmen wollte mehr aus seinen Daten herausholen, aber die Hadoop-basierte Datenplattform des Unternehmens konnte mit den Geschäftszielen nicht Schritt halten – das Team konnte nur eine Probe seiner Bilddaten verarbeiten, und es gab fortgeschrittene Netzwerkberechnungen, die nicht innerhalb eines angemessenen Zeitraums abgeschlossen werden konnten. Bei einem Fertigungsunternehmen steckten die Daten in verschiedenen Silos, einige in HPC-Clustern, andere auf Hadoop, was wichtige, tiefgehende Lernprojekte für das Unternehmen behinderte.

Abgesehen von den technischen Herausforderungen gibt es auch Kunden, die Bedenken hinsichtlich der langfristigen Lebensfähigkeit der Technologie und der geschäftlichen Stabilität der Anbieter äußerten. Selbst Google, dessen Abhandlung über MapReduce aus dem Jahr 2004 die Open-Source-Entwicklung von Apache Hadoop untermauerte, hat die Verwendung von MapReduce ganz eingestellt, wie Google SVP Urs Hölzle twitterte: "[...] R.I.P. MapReduce. Nachdem wir seit 2003 gute Dienste geleistet haben, haben wir heute die verbliebene interne Codebasis für immer entfernt..." Diese technologischen Wandel spiegeln sich in der Konsolidierung und den Kaufaktivitäten im Bereich der Hadoop-orientierten Anbieter wider. Die Ansammlung von Bedenken hat viele Unternehmen dazu bewegt, ihre Hadoop-Investitionen neu zu bewerten, um zu sehen, ob die Technologie noch ihren Bedürfnissen entspricht.

Umstellung auf moderne Cloud-Datenplattformen

Datenplattformen, die für die native Nutzung in der Cloud entwickelt wurden, können im Vergleich zu älteren Hadoop-Umgebungen, die Unternehmen lediglich in die Cloud „ziehen", erhebliche Vorteile bringen. Dies schließt auch Anwender ein, die versucht haben, Hadoop in der Cloud zu nutzen. Hier sind einige Ergebnisse eines Nutzers, der von einem Cloud-basierten Hadoop-Service zu Databricks gewechselt ist:

  • Bis zu 50 Prozent Leistungssteigerung bei der Laufzeit von Datenverarbeitungsaufträgen
  • 40 Prozent niedrigere monatliche Infrastrukturkosten
  • 200 Prozent höherer Durchsatz bei der Datenverarbeitung
  • Zentralisierung der Sicherheitsumgebung in sechs globalen Teams
  • Fünfzehn KI- und ML-Initiativen freigegeben und beschleunigt

Hadoop wurde nicht für den nativen Betrieb in Cloud-Umgebungen entwickelt, und obwohl Cloud-basierte Hadoop-Dienste sicherlich Vorteile im Vergleich zu lokal eingerichteten Lösungen aufweisen, hinken beide im Vergleich zu modernen Datenplattformen, die für den nativen Betrieb in der Cloud konzipiert wurden, immer noch hinterher. Sowohl was die Leistung als auch die Fähigkeit betrifft, anspruchsvollere Fälle der Datennutzung zu bewältigen. Bei Kunden mit einer Hadoop-basierten On-Premises-Lösung können oft noch bessere Ergebnisse als die oben genannten erreicht werden.

Änderungen verwalten: Grundsätze der Hadoop-Cloud-Migration

Die Migration auf eine moderne Cloud-Datenplattform kann zwar eine große Herausforderung darstellen, allerdings ist die Alternative – nämlich an veralteten Systemen festzuhalten – in der Regel noch problematischer. Für die meisten Unternehmen ist der Preis eines Betriebs mit ihrer alten Plattform deutlich schlimmer als die Kosten der Migration. Der Migrationsprozess lässt sich dabei über verschiedene Dimensionen hinweg optimieren:

  • Komplexität und Umfang: Bewegung von Metadaten, Migration der Arbeitslast, Datenmigration
  • Qualität und Risiko: Methodik, Projektpläne, Zeitpläne, Technologiezuordnungen
  • Kosten und Zeit: Partner und professionelle Dienstleistungen, die Erfahrung und Expertise mitbringen

Zukunftssicherheit für Cloud-Analytik-Projekte

Bei Entscheidungen zur Cloud-Migration geht es ebenso sehr um geschäftliche Faktoren wie um die Technologie. Unternehmen müssen sich genau ansehen, was ihre aktuellen Systeme leisten und bewerten, was sie zum Erreichen ihrer Ziele benötigen. Diese kritische Selbstreflektion ist notwendig, unabhängig davon, ob die Ziele in Petabytes verarbeiteter Daten, Kundenzufriedenheit oder finanziellen Geschäftszielen gemessen werden.

Bharath Gowda, Databricks

„Die Migration auf eine moderne Cloud-Datenplattform kann zwar eine große Herausforderung darstellen, allerdings ist die Alternative – nämlich an veralteten Systemen festzuhalten – in der Regel noch problematischer.“

Bharath Gowda, Databricks

Mit der Klarheit über diese Ziele kommen wichtige technische Details, wie zum Beispiel die Zuordnung von Technologiekomponenten von hauseigenen Modellen zu Cloud-Modellen, die Bewertung der Nutzung von Cloud-Ressourcen und des Kosten-Nutzen-Verhältnisses sowie die Strukturierung eines Migrationsprojekts zur Minimierung von Fehlern und Risiken.

Wenn Sie mehr darüber erfahren möchten, können sie sich ein On-Demand-Webinar ansehen, in dem Konzepte für die Cloud-Migration, bewährte Verfahren zur Datenmodernisierung und Produktdemos zur Migration vorgestellt werden.

Über den Autor:
Bharath Gowda ist VP of Product Marketing bei Databricks.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Nächste Schritte

So planen Sie Ihre Hadoop-Ressourcen

Mit diesen Anbietern Hadoop in der Cloud nutzen

So lässt sich HDFS für Big Data nutzen

Erfahren Sie mehr über Data-Center-Betrieb