cutimage - Fotolia
Erwägungen zur Wartung von HCI-Hardware
Die Bestandteile von HCI-Plattformen leben als solche nicht ewig. Sie erreichen eines Tages ihre Grenzen, ob bei Kapazität oder Alter. Die Pflege der HCI hilft dagegen.
Eine Hyperkonvergente Infrastruktur (HCI) vereinfacht zwar die Aufgaben des Alltags, lässt aber nicht sämtliche Pflege der Hardware auf magische Weise verschwinden. Jede hyperkonvergente Infrastruktur kann einmal ausfallen oder in Kapazitätsnöte geraten – jede Hardware hat eine begrenzte Lebensdauer. Damit Ihre HCI betriebsbereit bleibt und einen bleibenden Unternehmenswert darstellt, muss sie durch regelmäßige Wartung der Komponenten in gutem Zustand gehalten werden.
Bei einer kleineren HCI-Umgebung werden Sie vielleicht mit ein wenig Glück über drei oder sogar über fünf Jahre hinweg keinen einzigen Serverausfall erleben. Je mehr Server Sie aber haben und verwalten, desto mehr steigt die Wahrscheinlichkeit für einen Ausfall an. Wenn Sie hunderte Hardware-Nodes betreiben, können Ausfälle sich schon monatlich bemerkbar machen – auch dann, wenn Server heutzutage auf Fehlertoleranz ausgelegt sind.
Systeme haben üblicherweise redundant ausgelegte Lüfter und Netzteile, weshalb das Versagen einer einzelnen Komponente noch nicht zu einem Systemversagen führt. Ihr HCI-Wartungsplan sollte deswegen immer auch Ersatzteile umfassen, egal ob Sie den Service selber durchführen oder sich dafür eines Dienstleisters bedienen.
HCI-Hardware über kurz oder lang belegt
HCI bedarf einer durchgängigen Kapazitätsplanung. Mit der Zeit wächst der Ressourcenbedarf, und auch die Cluster-Ressourcen haben ihre Grenzen. Kapazitätsmessung sollte daher ein integraler Bestandteil Ihres Verwaltungsplans für die HCI-Hardware sein. Eine Forecasting-Funktionalität kann dabei voraussagen, zu welchem kommenden Zeitpunkt voraussichtlich neue Ressourcen benötigt werden. Dies ist hilfreich bei der Budgetplanung, für die aber zusätzlich auch Zeiten für Genehmigungsprozesse, Bestellung, Lieferung und Bereitstellung berücksichtigt werden sollten: Es ist wenig hilfreich für Betrieb und Personal, wenn Ihre Hardware noch auf der Ladefläche eines Lkw durch das Land fährt, während Sie bereits ein Kapazitätsproblem haben.
HCI-Plattformen werden als Kombination aus Rechenkapazität und Speicherkapazität erworben. Achten Sie daher auf die Balance Ihrer Ressourcen. Dadurch wird eine Erweiterung der Hardware schwieriger als bei einem regulären Server, bei dem dank Hot-Swapping Ersatz und Erweiterung von Hardware heute ein Kinderspiel sind. Um nachzuverfolgen, welche Ressourcen verfügbar sind, können Sie HCI-Verwaltungssoftware einsetzen. Sie liefert Ihnen regelmäßig Berichte oder Warnungen, wenn Ressourcen voreingestellte Grenzwerte erreichen.
Ist die Verteilung des Workloads ungleichmäßig in Bezug auf Rechenleistung und Speicherverbrauch, so zahlen Sie möglicherweise für Ressourcen, die Sie gar nicht verwenden. Somit wäre Ihre HCI weniger kosteneffizient. Wägen Sie daher ab, ob das Hinzufügen von Nodes mit reiner Rechenleistung oder reiner Speicherkapazität der kosteneffizienteste Weg zur Erweiterung Ihrer HCI-Hardware wäre. Denken Sie auch daran, dass Wartungsaufgaben Ressourcen vom HCI-Cluster abziehen können. Womöglich wird es sogar notwendig, einen Node herunterzufahren, um Teile wie Lüfter oder Laufwerke zu ersetzen.
Erweiterung des Clusters planen
Wenn es an der Zeit ist, Ihren HCI-Cluster zu erweitern, sollten Sie die Auswirkungen neuer Hardware auf die Verfügbarkeit Ihrer Ressourcen bedenken. Wenn Sie von demselben Anbieter vergleichbare HCI-Hardware zur Erweiterung nutzen, wird das vermutlich kaum negative Auswirkungen auf die Gesamtleistung haben.
Erweitern Sie aber mit Nodes, die merklich unterschiedliche Speicher- und Prozessorressourcen aufweisen, so könnte Ihre Infrastruktur in ein Ungleichgewicht hinsichtlich der Leistung geraten. Ein Cluster mit vier älteren mittelgroßen 256 GByte HCI-Nodes könnte zum Beispiel mit zwei neueren und wesentlich leistungsstärkeren 768 GByte Nodes erweitert werden.
Wird Ihr Cluster von einem TByte RAM auf 2,5 TByte RAM aufgerüstet, so könnte durch den Ausfall eines einzigen der neuen Nodes ein Speicherverlust von fast einem Drittel für den gesamten Cluster eintreten. Fiele hingegen einer der älteren Nodes aus, so würde dieser nur 10 Prozent des RAMS mit sich ziehen. Dieses mögliche Ungleichgewicht könnte sich auf CPU- oder Speicherkapazitäten auswirken und bei den neueren Nodes zu Wartungs- oder Kompatibilitätsproblemen führen.
Der nächste Schritt nach einer rollierenden Erweiterung eines Clusters ist das rollierende Ersetzen von Komponenten. Wenn HCI-Nodes zum Ende ihrer erwarteten Lebensdauer gelangen, können Sie neue Nodes in den Cluster aufnehmen und ältere Nodes in Rente schicken.
Wann eine Komponente das Ende ihrer Lebensdauer erreicht, ist eine rein unternehmerische Entscheidung. Dieser Zeitpunkt kann erreicht sein, wenn die Komponente abgeschrieben ist, wenn eine Entscheidung zur altersbedingten Vermeidung von Ausfällen getroffen wird oder wenn neue Entwicklungen im Hardwaresektor den Betrieb älterer Hardware nicht mehr wirtschaftlich erscheinen lassen.