Definition

„Split Brain“-Problem

Ein “Split Brain”-Problem tritt bei Server-Clustern immer dann auf, wenn Nodes in kleinere Cluster mit der je gleichen Anzahl an Nodes aufgeteilt werden und dabei jeder neue Cluster denkt, er sei der einzige aktive Cluster.

Da beide Cluster davon ausgehen, der jeweils andere sei ausgefallen, versuchen beide gleichzeitig auf die gleichen Anwendungsdaten oder Festplatten zuzugreifen, was zu Datenverlust führen kann. Ein „Split Brain“-Problem kann zum Beispiel bei einer Neuordnung der Cluster auftreten, wenn einer oder mehrere Nodes in einem Cluster ausfallen und sich der Cluster mit den verbliebenen Nodes neu anordnet. Anstatt sich wieder zu einem Cluster zu formieren, kann es hierbei vorkommen, dass sich mehrere Fragmente des Clusters mit der gleichen Anzahl an Nodes zu neuen Cluster anordnen. Dabei geht jeder neue Cluster davon aus, der einzige aktive Cluster zu sein, und versucht auf Dateien oder Festplatten zuzugreifen. Da jetzt aber mehr als nur ein Cluster zugreifen wollen kann es in diesem Fall zu Datenverlust kommen.

Ein Beispiel:

  • Nehmen wir an es gibt die fünf Nodes A, B, C, D, und E, die zusammen den Cluster X bilden.
  • Nun fällt zum Beispiel Node E aus.
  • In der jetzt fälligen Cluster-Neuordnung sollten sich die verbleibenden Nodes wieder zum Cluster X anordnen.
  • Durch das Auftreten eines „Brain Split“-Problems kann es aber jetzt passieren, dass sich die verbleibenden Nodes zu den zwei Clustern X1 (mit den Nodes A und B) und X2 (mit den Nodes C und D) anordnen.
  • Sowohl X1 als auch X2 gehen davon aus, der einzige aktive Cluster zu sein, und greifen gleichzeitig auf Dateien oder Festplatten zu.

Alle Hochverfügbarkeits-Cluster sind prinzipiell anfällig für dieses „Split Brain“-Problem und sollten Mechanismen mitbringen, um diese Problematik zu vermeiden. Clustering-Tools wie beispielsweise Pacemaker, HP ServiceGuard, CMAN und LinuxHA bringen entsprechende Mechanismen mit sich.

Gängige Methoden zur Vermeidung von „Split Brain“-Problemen beinhalten:

  • Quorum Disks
  • Quorum Server 
  • Tie-Breakers
  • STONITH (“Shoot The Other Node In The Head”)
  • I/O Fencing
Diese Definition wurde zuletzt im April 2014 aktualisiert

Erfahren Sie mehr über Disaster Recovery