echiechi - Fotolia

Hadoop-Cluster: Tipps für die Kapazitätsplanung

Planen Sie die Kapazitäten eines Hadoop-Clusters, sind viele Faktoren ausschlaggebend. Vor allen Dingen Kompression und IOPS sind wichtige Punkte, die Sie berücksichtigen müssen.

Hadoop ist ziemlich flexibel und das vereinfacht die Planung der Kapazitäten für Cluster. Faktoren wie IOPS und Kompressionsraten sind aber dennoch einen Gedanken wert.

Die erste Regel bei der Kapazitätsplanung für einen Hadoop-Cluster ist, dass Hadoop Änderungen vertragen kann. Überdimensionieren Sie die Storage-Anforderungen, können Sie den Cluster nach unten skalieren. Brauchen Sie mehr Storage, als Sie ursprünglich eingeplant haben, können Sie mit einem kleinen Cluster anfangen und Nodes hinzufügen, sobald die Anforderungen an die Daten steigen.

Planen Sie die Kapazitäten für einen Hadoop-Cluster, gehört es weiterhin zu den Best Practices, dass Sie die Anforderungen an die Datenredundanz in Betracht ziehen. Speichern Sie Daten in einem Hadoop-Cluster, hat das den Vorteil, dass die Informationen repliziert werden. Das schützt vor Datenverlust. Solche Kopien brauchen Platz im Storage, die Sie ihn Ihre Planungen einrechnen müssen. Schätzen Sie, dass Sie fünf TByte an Daten brauchen und benutzen den Hadoop-Standard, der drei Kopien vorhält, müssen Sie den Cluster mit 15 TByte an Daten planen.

Weiterhin müssen Sie Overhead und Kompression in die Kapazitätsplanung für Hadoop einplanen. Die Kompression spielt eine große Rolle, wenn es darum geht, wie viel Storage Ihr Hadoop-Cluster braucht. Deswegen müssen Sie unbedingt die Art der Daten in Betracht ziehen, die Sie speichern wollen. Wissenschaftliche Daten, Docker-Container und komprimierte Medien haben keine starke Redundanz, deswegen profitieren Sie häufig nicht von Komprimierung. Auf der anderen Seite gibt es Daten, die sich um 80 Prozent oder mehr komprimieren lassen. Das gilt vor allen Dingen für Textdateien.

Der Mitbegründer Doug Cutting von Hadoop ist der Meinung, dass Experimentierfreudigkeit immer noch ein Kennzeichen der Open-Source-Plattform ist. Deswegen passe sie zu vielen Entwicklungsstilen.

Führen Sie Experimente mit Komprimierung durch

Wenn Sie die Storage-Anforderungen für ihren Cluster planen, experimentieren Sie mit Beispieldaten und kontrollieren, wie gut sie sich komprimieren lassen. Können Sie beispielsweise einen kleinen Satz an Daten um 50 Prozent komprimieren, dann lassen sich für die produktiven Daten Hochrechnungen in der gleichen Größenordnung machen. Um auf der sicheren Seite zu bleiben, planen Sie aber immer etwas Puffer ein und rechnen mit einem geringeren Prozentsatz.

Ein Hadoop-Cluster kann mehr als eine Art von Daten speichern. In diesem Fall müssen Sie die Kompression entsprechend den Anteilen berechnen.

Nehmen Sie an, dass sich ein gewisser Satz an Daten bei Tests um 40 Prozent komprimieren lässt. Außerdem brauchen diese speziellen Daten 20 Prozent des Clusters, der 10 TByte groß ist. Die Daten benötigen also zwei TByte. Komprimieren Sie die Daten um 40 Prozent, dann ergibt das insgesamt 0,8 TByte an Daten, wenn Sie den Overhead und die Redundanz nicht einbeziehen.

Wenn Sie die Storage-Anforderungen für ihren Cluster planen, experimentieren Sie mit Beispieldaten und kontrollieren, wie gut sie sich komprimieren lassen.

IOPS berechnen

Die Storage-Anforderungen werden auch über IOPS definiert. Werden sehr viele Daten übertragen, muss das Storage des Clusters wesentlich mehr IOPS verarbeiten können, als wenn es sich um große, aber relativ statische Daten handelt.

Erwarten Sie, dass der Satz an Daten sehr lese- und schreibintensiv ist, dann müssen Sie IOPS in die Kapazitätsplanung für den Hadoop-Cluster einbeziehen. Bei einer hohen Anzahl an IOPS verwenden Sie am besten Flash-Storage. Immer ist das aber nicht die beste Option, weil es teuer ist und die Schreiboperationen limitiert sind.

Anstatt Flash zu verwenden, könnten Sie auch mehr Festplatten einsetzen. Rechnen Sie damit, dass Ihr Hadoop-Cluster zwölf TByte an Storage braucht, dann bekommen Sie mehr IOPS, wenn Sie anstelle von drei Festplatten mit vier TByte insgesamt vier Festplatten mit jeweils drei TByte einsetzen.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Tools für das Management von Hadoop-Clustern

Hadoop-Cluster und die Vor- und Nachteile für Big Data

Hadoop vereint Spreadmarts und Analytics an einem Ort

Erfahren Sie mehr über Data-Center-Betrieb