Definition

Hadoop as a Service

Was ist Hadoop as a Service (HaaS)?

Hadoop as a Service (HaaS), auch bekannt als Hadoop in der Cloud, ist ein Big-Data-Analyse-Framework, das Daten in der Cloud speichert und analysiert und dabei Hadoop verwendet. Benutzer müssen bei der Nutzung dieser Technologie nicht in zusätzliche Infrastrukturen investieren oder diese vor Ort installieren, da HaaS von einem Drittanbieter bereitgestellt und verwaltet wird.

Hadoop ist ein Software-Framework zur Verwaltung von Daten und Speicherplatz für Big-Data-Anwendungen in geclusterten Systemen. Hadoop ermöglicht es den Benutzern, Daten zu sammeln, zu verarbeiten und zu analysieren. HaaS versucht, den Nutzern in der Cloud die gleiche Erfahrung zu bieten. HaaS eignet sich für mittlere und große Unternehmen, die nicht über die Infrastruktur oder die Fähigkeit verfügen, Hadoop am eigenen Standort zu hosten.

Das quelloffene (Open Source) Big-Data-Analyse-Framework Hadoop ermöglicht die Analyse großer, unstrukturierter Datensätze. Der Storage-Mechanismus von Hadoop, das Hadoop Distributed File System (HDFS), verteilt diese Arbeitslasten auf mehrere Knoten, sodass sie parallel verarbeitet werden können. Hadoop-as-a-Service-Anbieter integrieren proprietäre Programme in das Hadoop-Framework, um die Nutzung für Unternehmen zu erleichtern, und bieten in der Regel auch Verwaltungs- und Supportfunktionen an. Die meisten HaaS-Angebote sind Cloud-basiert, und die Preisgestaltung erfolgt meist auf einer Pro-Cluster-/Stunden-Basis.

Funktionen

HaaS-Anbieter bieten eine Vielzahl von Funktionen und Support, darunter die folgenden:

  • Unterstützung bei der Bereitstellung des Hadoop-Frameworks.
  • Verwaltung von Hadoop-Clustern.
  • Alternative Programmiersprachen.
  • Datenübertragung zwischen Clustern.
  • Anpassbare und benutzerfreundliche Dashboards und Datenmanipulation.
  • Sicherheitsfunktionen.

Vor- und Nachteile

Der Betrieb von HaaS kann zu Vor- und Nachteilen führen. Zu den Vorteilen von HaaS gehören die folgenden:

  • Keine Notwendigkeit, zusätzliche physische Hardware-Infrastrukturen einzusetzen.
  • Eine breite Palette von Datenquellen, die verwendet werden können, einschließlich Clickstream-Daten oder E-Mails.
  • Unterstützte Funktionen, einschließlich Betrugserkennung, Data Warehousing oder automatisches Kopieren von Daten im Falle eines Datenverlusts.
  • Die Tools, die die Daten verarbeiten, werden auf denselben Servern verwendet, auf denen sich auch die Daten befinden, was zu einer höheren Geschwindigkeit bei der Datenverarbeitung führt.

Zu den Nachteilen gehören jedoch die folgenden:

  • Die Open-Source-Programmiersprache Hadoop erfordert spezielle Kenntnisse, die viele Unternehmen nicht im Haus haben oder sich nicht leisten können.
  • Qualifizierte Ingenieure, die sich mit Hadoop auskennen, sind schwer zu finden.
  • Die Sicherheitsmaßnahmen von Hadoop sind standardmäßig deaktiviert.
  • Nur mittlere bis große Unternehmen können HaaS effizient nutzen.

Die Dienste, die HaaS-Anbieter auf ihren Plattformen anbieten, sind sowohl positiv als auch negativ. HaaS-Anbieter können eine breite Palette von Funktionen anbieten, die entweder nur die Hadoop-Software oder auch andere Funktionen wie virtuelle Maschinen umfassen können. Diese Vielfalt kann für Unternehmen nützlich sein, die ihren Anbieter auf der Grundlage dessen auswählen wollen, was sie genau benötigen und was der Anbieter offeriert. Für Unternehmen, die sich gerade erst mit dem Thema HaaS befassen, kann sie jedoch verwirrend sein.

HaaS-Anbieter und zu berücksichtigende Funktionen

Amazon war der erste große Anbieter von Hadoop as a Service. Zu den anderen Anbietern gehören die folgenden:

  • Microsoft
  • IBM
  • Oracle
  • OpenStack
  • Google

Zu den Merkmalen, auf die ein HaaS-Anbieter achten sollte, gehören die folgenden:

  • Daten, die persistent in HDFS gespeichert werden sollten – dies vermeidet Probleme, die mit der Übersetzung von in anderen Formaten gespeicherten Daten in HDFS verbunden sind.
  • Elastizität zur Anpassung an eine Vielzahl von Arbeitslasten.
  • Die Fähigkeit, sich von Verarbeitungsfehlern zu erholen, ohne den gesamten Prozess neu zu starten, bekannt als Nonstop-Operationen.
  • Eine selbstkonfigurierende Umgebung, die eine automatische Konfiguration auf Basis der Arbeitslast ermöglicht.
Diese Definition wurde zuletzt im Mai 2024 aktualisiert

Erfahren Sie mehr über Cloud Storage