Photobank - Fotolia
Richtig reagieren, wenn der Notfallplan scheitert
Fast jede IT-Abteilung hat einen Notfallplan vorbereitet, der nach einer Katastrophe in Kraft tritt. Warum scheitern viele dieser Strategien und was können Sie dagegen unternehmen?
Selbst unter optimalen Umständen besteht auch in der IT immer die Gefahr, dass etwas schief geht. Es gibt ganz einfach keinerlei Garantien, dass alles wirklich nach Plan läuft. Diese Erkenntnis gilt unabhängig davon, wie gut die vorherigen Planungen waren oder wie viele Szenarien vorher durchgespielt wurden.
So habe ich beispielsweise früher für einen Softwareanbieter gearbeitet, der genau in einer Schneise lag, in der immer wieder Wirbelstürme auftreten. Das Unternehmen hatte deswegen bereits einen soliden Plan zur Fortführung der Aktivitäten und zur Wiederherstellung nach einem schwerwiegenden Desaster. Wir nannten ihn liebevoll den „atomaren Fußball“. Es war ein äußerst detaillierter BC/DR-Plan (Business Continuity/Disaster Recovery), der ausführlich beschrieb, wie das Unternehmen nach einem Verlust von Daten, Anwendungen und Systemen wiederhergestellt hätte werden können. Wir dachten aus diesem Grund, dass wir auf jedwede Gefahren vorbereitet wären. Als dann aber wirklich eine größere Katastrophe eintrat, geschah sie genau eine Woche vor dem größeren Release einer wichtigen neuen Software. Die Ergebnisse des Desasters waren leider absolut lachhaft. Es traten so viele unerwartete Probleme bei der beabsichtigten Wiederherstellung der Geschäftstätigkeit auf, dass der Plan keinerlei Chance hatte, in die Praxis umgesetzt zu werden.
Zuerst fiel die Stromversorgung aus. Das war an sich kein Problem, denn das Gebäude war für diesen Fall extra mit einem Generator ausgestattet. Dann fanden wir allerdings heraus, dass die Facility-Manager übersehen hatten, Diesel für den Generator zu kaufen und einzulagern. Daraufhin wollten wir Diesel von einem benachbarten Anbieter besorgen. Dort angekommen stellte sich jedoch heraus, dass dieses Unternehmen selbst keinen passenden unverbleiten Treibstoff für seine eigenen Dieselpumpen mehr hatte. Das gesamte Gebiet war ohne Strom. Zu dem damaligen Zeitpunkt war Virtualisierung noch kein so großes Thema wie heute. Es war also nicht möglich, einfach die wichtigsten virtuellen Maschinen mit Hilfe der Cloud an eine andere Stelle zu verlagern. Ohne Strom hatten wir aber keine mehr zur Verfügung stehende Infrastruktur und unser Produkt konnte zunächst nicht veröffentlicht werden. Wir waren also trotz aller Vorbereitungen und trotz unseres detaillierten BC/DR-Plans weitgehend machtlos.
Warum immer wieder alles schief geht, was schief gehen kann
In gemäßigten Klimazonen wie Deutschland sind Wirbelstürme oder andere vergleichbare Naturkatastrophen eher selten anzutreffen. Es besteht aber auch hierzulande die Möglichkeit, dass die geplanten Maßnahmen zur Wiederherstellung nach einem größeren Desaster in der Praxis nicht funktionieren werden. Das hat mehrere Gründe:
Ein Mangel an durchdachter Planung: Der BC/DR-Plan eines Unternehmens sollte auch jedes noch so kleine Detail enthalten. Er muss Daten über alle eingesetzten Geschäftsprozesse sowie über geeignete Gegenmaßnahmen bei Problemen umfassen. Der Plan sollte darüber hinaus nicht nur allgemein gehalten sein, sondern auch konkrete Schritte für einzelne Desaster enthalten. Sonst können erhebliche Probleme auftreten, wenn ein Schaden eintritt.
Ein Mangel an Tests: Man hört immer wieder, dass ein BC/DR-Plan nicht das Papier wert ist, auf dem er gedruckt wurde. Ohne ausführliche Tests der geplanten Maßnahmen ist diese Aussage leider auch absolut zutreffend. Wenn ein Unternehmen beispielsweise beabsichtigt, eine Wiederherstellung in der Cloud durchzuführen, muss das vorher ausgiebig durchgespielt und getestet werden. Das betrifft sowohl die Bereiche Failover als auch Failback. Ohne ausführliche Tests ist jedweder Plan nur eine möglicherweise gute, aber in der Praxis nicht ausprobierte Idee.
Ein Mangel an Ergebnissen: Selbst mit einem Plan, der vierteljährlich getestet wird, ist oft nicht klar, ob die aktuellsten Backups fehlerfrei sind und ob sich die gesicherten Daten auch wirklich wieder ohne Probleme in die jeweiligen Anwendungen und Dienste einspielen lassen? Aus diesem Grund kommt es trotz aller Tests immer wieder vor, dass die Bestrebungen zur Wiederherstellung verloren gegangener Daten zu gänzlich unerwarteten Ergebnissen führen.
Schlicht zu wenig Vorbereitung: Möglicherweise tritt auch einfach nur ein Ereignis ein, auf das sich ein Unternehmen nicht vorbereiten konnte, weil es so extrem unwahrscheinlich ist und das erst nach einer Kette von unglücklichen Geschehnissen auftreten würde. Ich bin deswegen ein großer Fan von BC/DR-Plänen, die nicht einfach nur zeigen, wie sich bestimmte Systeme und Anwendungen relativ allgemeingehalten wiederherstellen lassen. Ich ziehe die Variante vor, bei der es ganz spezifische Pläne für ganz spezifische Szenarien gibt. So ist zum Beispiel die Wiederherstellung nach einem beschädigten Betriebssystem etwas komplett anderes, als wenn das gesamte Gebäude niedergebrannt ist.
Wenn ein BC/DR-Plan komplett schief geht
Die folgenden Schritte und Fragen zeigen auf einfache Weise, wie sich scheinbar unlösbare Probleme doch noch in relativ kurzer Zeit beheben lassen:
Theoretisch sollte der erste Schritt bereits im Vorfeld erledigt sein: Fertigen Sie eine nach Wichtigkeit sortierte Liste mit den Bereichen an, die für die Fortführung der Geschäfte absolut notwendig sind, also auf die 20 Prozent der Systeme – die frei nach Pareto – für 80 Prozent Ihres Geschäftserfolgs verantwortlich sind. So können Sie sich auf Anwendungen, Dienste, Systeme und Daten konzentrieren, die den größten positiven Einfluss auf Ihr Unternehmen haben.
In Anbetracht der aktuell schwierigen Situation müssen Sie Ihre Optionen dann äußerst genau bewerten: Welches ist der schnellste Weg, um die Prozesse wiederherzustellen? Ist es dazu nötig, mit einem Cloud-basierten Anbieter zusammenzuarbeiten? Gibt es zu dieser Lösung eventuell auch eine alternative Möglichkeit? Egal, was auch immer die größte Schwierigkeit darstellt, um eine Wiederherstellung durchzuführen. Am wichtigsten ist es, umgehend eine Strategie zu formulieren, die zeigt, wie diese Wiederherstellung durchgeführt werden kann. Sie liegen ja bereits hinter ihren ursprünglichen Plänen. Diese sind endgültig gescheitert, da Sie nun dazu gezwungen sind, Ihre Prioritäten neu zu setzen und herauszufinden, wo und wie Sie am schnellsten eine Wiederherstellung durchführen können.
Wenn Sie bereits einen neuen Notfallplan haben, der von der Geschäftsführung abgesegnet wurde, dann lassen Sie sich jetzt nicht mehr stoppen. Die Geschäftsführung kann vermutlich sehr genau kalkulieren, wie viel Umsatz Ihr Unternehmen in jeder einzelnen Minute verliert, die die Wiederherstellung noch benötigt. Beschleunigen Sie deswegen die bereits begonnenen Maßnahmen und arbeiten Sie mit Hochdruck daran, die Wiederherstellung so schnell wie möglich durchzuführen.
Um auf das eingangs beschriebene Szenario zurückzukommen: Wir haben die Server und ihre Laufwerke ausgebaut und haben dann damit in einem drei Stunden mit dem Auto entfernten Hotelzimmer ein provisorisches Rechenzentrum aufgebaut. Dort gab es wieder Strom. Unser Entwicklerteam wurde mitgenommen und befand sich etwas entfernt in einem direkt mit von uns selbst verlegten Cat5-Kabeln angebundenen Konferenzraum. So konnte der geplante Produktstart doch noch möglich gemacht werden. Die gesamten dafür benötigten Prozesse wurden von diesem Hotel aus durchgeführt – also auf eine Weise, die trotz aller Vorbereitungen ganz sicher nicht von uns vorher geplant worden war.
Während Sie also Ihre eigene BC/DR-Strategie entwerfen, überprüfen, aktualisieren und testen, sollten Sie deshalb schon einen zweiten Plan in der Tasche haben. Nur so sind sie wirklich für die Fälle gewappnet, die sich einfach nicht voraussehen lassen. Sorgen Sie auf diese Weise dafür, dass die Wiederherstellung Ihrer essentiellen Geschäftsprozesse selbst unter den widrigsten Umständen durchgesetzt werden kann.
Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!