Hadoop-Cluster
Ein Hadoop-Cluster ist eine spezielle Art von Computer-Cluster, der für die Speicherung und Analyse von großen Mengen unstrukturierter Daten in einer verteilten Rechenumgebung entwickelt wurde.
Diese Cluster setzen das Open-Source-Framework Hadoop auf kostengünstigen Standard-Computern ein. Üblicherweise wird ein Rechner innerhalb des Clusters als NameNode festgelegt, ein anderer Computer als JobTracker. Diese beiden sind die sogenannten Master. Die übrigen Computer innerhalb des Clusters fungieren sowohl als DataNode als auch als TaskTracker. Diese Rechner werden als Slaves bezeichnet. Hadoop-Cluster werden oftmals auch Shared-nothing-Systeme genannt, da sie nichts außer dem Netzwerk teilen, welches sie miteinander verbindet.
Hadoop-Cluster sind bekannt dafür, dass sie die Geschwindigkeit von Applikationen zur Datenanalyse deutlich erhöhen. Darüber hinaus sind sie hoch skalierbar. Wenn die Rechenleistung eines Clusters der wachsenden Datenmenge nicht mehr standhalten kann, können weitere Cluster hinzugefügt werden, um den Durchsatz zu erhöhen. Hadoop-Cluster besitzen eine hohe Fehlerresistenz, da jeder Datensatz auf einen anderen Cluster kopiert wird, so dass selbst dann keine Daten verloren gehen, wenn ein Node ausfällt.
Zu den weltweit größten Hadoop-Clusters zählen Nutzer wie Facebook, Google, Yahoo und IBM.