Getty Images
Hochverfügbarkeit und Resilienz als Teil der DR-Planung
Die Firmenresilienz während und nach einer Krise hängt von vielen Faktoren ab. Hochverfügbarkeit ist ein Aspekt der Ausfallsicherheit, den DR-Teams nicht außer Acht lassen dürfen.
In einer Zeit, in der Ausfallzeiten praktisch nicht mehr akzeptabel sind, stellen Hochverfügbarkeit und Ausfallsicherheit wichtige Kriterien für die Kontinuität des Geschäftsbetriebs (Business Continuity) und das technologische Disaster Recovery dar.
Sowohl Hochverfügbarkeit (High Availability, HA) als auch Ausfallsicherheit (Resiliency – Resilienz) beziehen sich auf Unterbrechungen eines Unternehmens durch Systemausfälle, Netzwerkausfälle und Anwendungsprobleme. In der IT beschreibt Hochverfügbarkeit Systeme, die für bestimmte Zeiträume ohne Unterbrechung funktionieren. Resilienz ist die Fähigkeit eines Systems, sich von einer Störung zu erholen und seine Fähigkeiten zu ändern, um sich anzupassen und auf ähnliche Ereignisse in der Zukunft besser reagieren zu können.
Trotz gemeinsamer Ziele sind HA und Resilienz keine Synonyme. Eine starke Disaster-Recovery-Strategie umfasst beide Komponenten. Für DR-Teams ist es wichtig, die Unterschiede zwischen den beiden Konzepten, ihre Beziehung zueinander und andere Leistungskennzahlen, die die Resilienz beeinflussen können, zu verstehen.
Was ist Hochverfügbarkeit?
Hochverfügbarkeit beschreibt die Fähigkeit eines Systems, über einen bestimmten Zeitraum ohne Unterbrechung in Betrieb zu bleiben. Sie hebt die technologische Redundanz auf ein höheres Niveau. Redundanz bedeutet in der Regel, dass Backup-Hardware, -Software und -Storage verfügbar sind, falls die primären Ressourcen ausfallen. In vielen Fällen müssen die Benutzer die Backup-Ressourcen aktivieren.
HA verbessert die Redundanz, indem es einzelne Ausfallpunkte (Single Point of Failure, SPOF) reduziert, eine dynamische Systemüberwachung zur Erkennung von Ausfällen hinzufügt und eine automatische Failover-Funktion einschließt, um die Produktionsressourcen sofort auf eine alternative Plattform zu verlagern.
Das Backup-System kann sich in einem Rechenzentrum oder an einem alternativen Standort befinden, zum Beispiel bei einem Cloud-Service. Die Zeit, die für die Wiederherstellung und den Neustart des Systems nach einem Failover benötigt wird, hängt von der verfügbaren Netzwerkbandbreite und der für das Failover verwendeten Technologie ab.
HA-Systeme sind in der Regel darauf ausgelegt, ein bestimmtes Verfügbarkeitsniveau zu erreichen, das oft als prozentuale Betriebszeit bezeichnet wird. Ein Beispiel wie die Verfügbarkeit von fünf Neunen bedeutet, dass das System 99,999 Prozent der Zeit verfügbar ist. Dies entspricht einer Ausfallzeit von weniger als sechs Minuten im Jahr.
Eine höhere Verfügbarkeit ist in der Regel mit höheren Kosten verbunden, steigert aber auch die DR-Fähigkeiten eines Unternehmens erheblich. Die Technologie zur Überwachung der Systemleistung, die Kosten für Backup-Ressourcen und die Ressourcen, die ein Unternehmen für die Einrichtung einer HA-Funktion benötigt, sind höher als bei einer einfachen Redundanz. Es ist eine gute Praxis, Ersatzteile für kritische IT-Anlagen, Stromversorgungssysteme, Netzwerkkomponenten und andere Ressourcen vorzuhalten.
Was ist Fehlertoleranz?
Das Modell der Hochverfügbarkeit geht mit der Fehlertoleranz (Fault Tolerance) noch einen Schritt weiter. Das bedeutet, dass ein System so konzipiert ist, dass es so gut wie nie ausfällt, abgesehen von ungewöhnlichen Umständen wie Naturkatastrophen und anderen unvorhergesehenen Ereignissen. Hochverfügbarkeit und Fehlertoleranz werden in der Regel mit Hardware und Netzwerkelementen in Verbindung gebracht. Software, fällt in HA- und fehlertoleranten Systemen gleichermaßen aus.
Eine Möglichkeit für Unternehmen, Fehlertoleranz zu erreichen, besteht darin, vollständig gespiegelte Systeme einzurichten, die sofort aktualisiert werden, sobald das Primärsystem aktualisiert wird. In diesem Szenario werden einzelne Fehlerquellen (SPOF) weitgehend eliminiert. Gespiegelte Systeme befinden sich im ständigen Standby-Modus und sind bereit, die Verarbeitung eines gestörten Systems zu übernehmen. Wenn die Systemüberwachung ein Problem feststellt, das einen vorgegebenen Schwellenwert überschreitet, werden die Produktionsaufgaben sofort auf die Standby-Ressourcen übertragen, so dass die Produktion nicht unterbrochen wird. Diese Ressourcen können sich lokal oder an einem entfernten Standort befinden, in der Regel in einer Cloud.
Aufgrund der zusätzlich erforderlichen Systeme und Ressourcen sind die Kosten für Fehlertoleranz höher als für Hochverfügbarkeit.
Was ist Resilienz?
Business Continuity und Disaster Recovery (BC/DR) konzentrieren sich in der Regel auf die Wiederherstellung von Systemen beziehungsweise Geschäftsprozessen. Resilienz geht noch einen Schritt weiter. Unternehmen müssen die aus früheren Ereignissen gezogenen Lehren nutzen, um ihre Methoden anzupassen und zu verbessern, damit sie auf zukünftige Ereignisse besser vorbereitet sind. Dies gilt sowohl für BC/DR-Pläne als auch für IT-Systeme und -Netze, Backup-Ressourcen, Energie- und Umweltsysteme und andere IT-Ressourcen.
So kann beispielsweise ein zweiwöchiger kommerzieller Stromausfall die Kapazitäten des Notstromsystems einer Organisation übersteigen. Um eine höhere Ausfallsicherheit zu erreichen, kann die Organisation ein größeres System installieren und Vorkehrungen für ein planmäßiges Auffüllen treffen.
Hochverfügbarkeit bezieht sich auf die Verfügbarkeit und Zuverlässigkeit des Systems. Resilienz befasst sich damit, wie diese Ressourcen verbessert wurden, um künftige Zwischenfälle besser bewältigen zu können. Die hier diskutierten Ansätze – Redundanz, Hochverfügbarkeit und Fehlertoleranz – tragen alle zur Resilienz bei. Sie tragen aber auch zu höheren Kosten bei.
Keiner dieser Ansätze garantiert Ausfallsicherheit, aber eine Weiterentwicklung in Richtung Fehlertoleranz führt wahrscheinlich zu einem höheren Grad an Ausfallsicherheit. Die Kosten und Ressourcen, die erforderlich sind, um das gewünschte Maß an Ausfallsicherheit zu erreichen, müssen mit den geschäftlichen Anforderungen des Unternehmens und der Bereitschaft des Managements zu zusätzlichen Technologieinvestitionen abgewogen werden.