filograph - Fotolia
VMware-Umgebungen vor Ausfällen schützen
Ausfälle einer VMware-Umgebung sind durch solides Design vermeidbar. Dazu gehören die Auslagerung vitaler Prozesse und von Storage sowie die richtige Host-Größe.
Für erweiterte Funktionen und Verwaltungsmöglichkeiten sind ESXi-Hosts auf vCenter angewiesen. Zwar können auch ohne vCenter eine ganze Reihe an Verwaltungsaufgaben erledigt werden, doch wenn es zu Störungen oder gar zum Ausfall kommt, ist vCenter Ihr wichtigstes Werkzeug in Ihrer virtuellen Umgebung.
vCenter müssen Sie daher so schützen, dass es auch bei einer Störung nutzbar bleibt. Notfallpläne für umfangreiche Ausfälle müssen schon bei der Konzeption Ihrer VMware-Umgebung berücksichtigt werden.
Oft virtualisieren Admins vCenter in der gleichen Umgebung, in der vCenter auch verwaltet wird. Der Fehler an diesem Vorgehen ist, dass bei einem größeren Problem – wie etwa einem Storage-Ausfall – Ihr wichtigstes Werkzeug für die Problemdiagnose ebenfalls betroffen sein kann.
Nutzen Sie redundante Netzwerk- und Stromleitungen, so fehlt möglicherweise noch der vollständige Schutz von vCenter. Glücklicherweise lassen sich aber mehrere vCenter-Server miteinander verbinden für den Fall, dass einer davon ausfällt. VMware HA (High Availability) sorgt außerdem für den Schutz von vCenter, indem es ein Backup der vCenter-Server erstellt und ein Failover einleitet. Das hilft allerdings nicht, wenn die gesamte virtuelle Umgebung ausfällt.
Management-Cluster planen
Management-Cluster sind Hosts außerhalb der Produktionsinfrastruktur. Sie sind ausschließlich für Management-Tools und -Anwendungen bestimmt. Ein Management-Cluster sollte vCenter, die Active Directory Controller, einen Backup-Druckserver sowie ein Domain Name System (DNS) als Backup und den Server für das Dynamic Host Configuration Protocol (DHCP) enthalten. Dieses Off-Site-Management-Cluster ist von ausschlaggebender Bedeutung für Ihr Rechenzentrum.
Damit ein Management-Cluster effektiv arbeiten kann, muss es einerseits mit dem Produktionsnetzwerk verbunden sein, gleichzeitig aber soweit von ihm getrennt bleiben, dass Netzwerkprobleme es nicht beeinträchtigen können. Gleiches gilt für Storage, das ohnehin ein dediziertes Netzwerk haben oder durch lokale gemeinsame Speicher wie vSAN an einem alternativen Speicherort verfügbar sein sollte.
Ein externes Management-Cluster, auf dem die entscheidenden Tools und Dienste laufen, kann Ihre Handlungsfähigkeit im Ernstfall erhalten, damit Sie Ihre anderen Systeme wieder in Betrieb nehmen können. Dieses Cluster sollte Ihr bestehendes Rechenzentrum nicht ersetzen oder replizieren. Seine Aufgabe ist es, vCenter gegen massive Ausfälle abzusichern.
Passende Hostgröße vermeidet Ausfälle in der VMware-Umgebung
Die Gefahr eines Ausfalls bestimmt die maximale Größe Ihres Hosts und wie viele virtuelle Maschinen (VMs) oder Container darauf laufen können. Je größer der Host, desto weitreichender die Folgen eines Ausfalls. Die VM-Dichte hat auch Folgen für die Hochverfügbarkeit. Je größer die Zahl der virtuellen Maschinen und je geringer die Zahl der Hosts, desto länger dauert der Neustart, da Sie viele VMs gleichzeitig neu starten müssen.
Die Trennung von Workloads kann die Folgen von Host-Ausfällen zudem verstärken. Mischen Sie Produktions-Workloads mit Entwicklungs- oder Test-Workloads, so hat ein Ausfall eines Hosts geringere Auswirkungen, weil Workloads nicht jeweils nur auf einen Host laufen.
Bei einer Vermischung der Workloads müssen Sie jedoch mehr Ressourcenpools verwalten, um produktiven VMs hinreichend Ressourcenautorität zu gewähren. Das Mischen von Workloads führt auch zu dichteren Hosts. Sie müssen also entscheiden, worauf Sie mehr Wert legen: weniger Aufwand im laufenden Betrieb oder weniger Aufwand, falls es zu Ausfällen kommt.
Dokumentation hilft Störungen vorzubeugen
Gutes Design fordert immer auch Kompromisse. Was Ihnen sinnvoll erscheint, könnte einen anderen Administrator vor Rätsel stellen, und auch nachträgliche Korrekturen sind womöglich nicht immer perfekt. Sie können zukünftigen VMware-Umgebungsausfällen auch vorbeugen, indem Sie sicherstellen, dass andere Administratoren Ihren Denkprozess detailliert nachvollziehen und verstehen können.
Dokumentieren Sie daher Ihren Designprozess umfassend. Beschreiben Sie in Ihrer Dokumentation nicht nur Ihre Entscheidungen, sondern legen Sie zudem auch Ihre Gründe für diese Entscheidungen offen. Wenn andere Ihren Entscheidungsprozess nachvollziehen können, kann das verhindern, dass in der Zukunft vermeidbare Fehler passieren.
Schließlich haben auch Sie nichts davon, wenn ein neuer Kollege erst einmal die Infrastruktur aktualisiert oder ersetzt und sich mit denselben Problemen konfrontiert sieht, die Sie schon überwunden haben.