Sergey Nivens - Fotolia
Was vor dem Einsatz von Security-Tools geklärt werden muss
Der weltweite IT-Ausfall im Juli 2024 hat viele Fragen aufgeworfen. Auch solche, die Unternehmen vor jedem Einsatz kritischer Softwarelösungen grundsätzlich stellen sollten.
Der Crowdstrike-Channel-File-291-Vorfall vom Juli 2024 war für viele Sicherheitsexperten ein wichtiges Ereignis. Obwohl die Anzahl der betroffenen Geräte relativ gering war - schätzungsweise 8,5 Millionen Geräte, weniger als ein Prozent aller Hosts mit Windows - waren die Auswirkungen erheblich. Der Ausfall führte zu Verspätungen im Flugverkehr und zum Ausfall von Krankenhäusern sowie zu Problemen im Bankwesen, im Einzelhandel, in der Unterhaltungsbranche und Problemen in vielen anderen Bereichen.
Jedes Mal, wenn ein Ereignis großen Ausmaßes eintritt, sind Sicherheitsexperten dazu angehalten, unsere Arbeitsweise zu überprüfen und zu überlegen, wie wir unsere Organisationen besser schützen können, indem wir die aus dem Ereignis gezogenen Lehren berücksichtigen. Je größer und folgenreicher der Vorfall ist, desto mehr Fragen sollten wir uns stellen - und desto wichtiger sind die Lehren daraus.
Was können wir aus dem Vorfall mit dem Crowdstrike-Update lernen, um die Wahrscheinlichkeit künftiger Ausfälle zu minimieren? Im Folgenden werden Fragen betrachtet, die wir den Anbietern - und in einigen Fällen auch uns selbst - stellen sollten, um ähnliche Vorfälle in Zukunft zu vermeiden.
Frage 1: Wann kann ein Anbieter Änderungen durchführen?
Jedes Unternehmen, das einen Dienst über das Internet anbietet, weiß, wie wichtig es ist, die Produktionsumgebung vor Änderungen zu schützen. Die meisten haben komplexe Freigabe- und Auslieferungsprozesse eingerichtet, um sicherzustellen, dass Techniker nicht einfach wahllos Änderungen an der Produktionsumgebung vornehmen können und stattdessen ein gewisses Maß an Kontrolle durchlaufen müssen, um eine Änderung durchzuführen.
Im Fall von CrowdStrike wurde das Channel-File-291-Update jedoch direkt in die Produktionsumgebungen von Unternehmen in aller Welt eingespielt. Darüber hinaus geschah dies ohne den Einsatz von Test-, Staging-, Änderungskontroll- und anderen Prozessen, die die Sicherheit von Änderungen in kritischen Produktionsumgebungen überprüfen sollen.
Wenn wir die Umstände kennen, unter denen ein Anbieter Änderungen an seiner Software vornehmen kann, wissen wir, wann eine unerwartete Änderung in der Produktion möglich ist, was sich wiederum auf das Risiko auswirkt, das mit der Einführung dieser Software im Unternehmen verbunden ist.
Frage 2: Können Aktualisierungen und Änderungen kontrolliert, gestoppt oder eingeschränkt werden?
Die vorherige Frage gibt uns zwar Aufschluss darüber, welche Produkte der Hersteller ändern kann, aber das ist nur die halbe Miete. Die andere wichtige Frage ist, ob wir kontrollieren können, wann diese Änderungen in kontrollierten Umgebungen wie Produktionsumgebungen und industriellen Netzwerken freigegeben werden.
In manchen Fällen möchten wir bestimmte Erweiterungen - beispielsweise ein bestimmtes Update - schnell für die Produktion und andere hochkritische Umgebungen freigeben. Es ist jedoch von Vorteil, wenn wir die Häufigkeit dieser Freigaben kontrollieren können. So können wir sie beispielsweise in kleineren Umgebungen überprüfen, bevor sie in die Produktion gelangen, oder sie auf sensiblen Geräten oder älteren Plattformen testen, bevor sie vollständig freigegeben werden.
Frage 3: Lassen sich Aktualisierungen zeitlich staffeln?
Selbst wenn wir wissen, wo ein Anbieter Änderungen vornehmen kann (Frage 1) und einen Plan zum Testen dieser Änderungen haben (Frage 2), ist es eine kluge Idee, die Änderungen über einen bestimmten Zeitraum zu verteilen.
Wenn ein Unternehmen beispielsweise über eine Serverfarm oder ein Cluster verfügt, kann es sich dafür entscheiden, eine Aktualisierung jeweils nur für einen bestimmten Prozentsatz der Server zu veröffentlichen. Auf diese Weise gibt es im Falle unerwünschter Auswirkungen immer noch redundante Systeme, die nicht betroffen sind. Es ist von Vorteil, zu wissen, inwieweit die Anbieter dies unterstützen. Manche tun es, manche nicht.
Frage 4: Unter welchen Umständen kann ein Anbieter auf unsere Umgebungen zugreifen?
Manchmal gibt es triftige und wichtige Gründe, Anbietern Zugang zu unseren Umgebungen zu gewähren, beispielsweise um bei Support, Upgrades, Problemlösung und Konfiguration zu helfen. So sind beispielsweise speziell angefertigte Geräte - wie diagnostische Bildgebungsplattformen im Gesundheitswesen, DNA-Sequenzer, industrielle Steuersysteme und Telekommunikations-Routing-Geräte - oft spezialisiert und verfügen über Betriebssteuerungen und Telemetrie, die von Nichtfachleuten nicht leicht zu interpretieren sind.
Ähnlich wie bei den oben genannten Fragen sollten wir als Kunden jedoch verstehen, unter welchen Umständen der Zugang erforderlich ist, wie wir benachrichtigt werden und wie der Zugang erfolgt.
Frage 5: Welche Aufzeichnungen werden über die getroffenen Maßnahmen geführt?
So wie wir wissen wollen, unter welchen Umständen und auf welche Weise ein Anbieter auf unsere Systeme zugreifen kann, wollen wir auch sicherstellen, dass dieser Zugriff aufgezeichnet wird.
Stellen Sie beispielsweise sicher, dass Protokolldateien oder Zugriffsprotokolle Informationen darüber enthalten, wer auf sie zugegriffen hat und welche Aktionen er durchgeführt hat. Dies ist aus zwei Gründen wichtig. Erstens können wir Aktionen zu bestimmten, individuell identifizierbaren Mitarbeitern des Anbieters zurückverfolgen, wenn etwas schief läuft oder der Zugang missbraucht wird. Zweitens helfen Informationen über den Zugriff im Falle einer Untersuchung, Auswirkungen auf kritische Plattformen auszuschließen oder zu identifizieren.
Frage 6: Wie werden die Kunden benachrichtigt und gewarnt?
Machen wir uns nichts vor: Wir sind nicht immer gut darin, uns über Produktaktualisierungen auf dem Laufenden zu halten. Denken Sie an alle wichtigen Geschäftsanwendungen in Ihrem Unternehmen. Haben Sie alle aktuellen Produkt-Support-Bulletins, Patch-Hinweise, Warnungen vor Sicherheitslücken, Kundenbenachrichtigungs-E-Mails, Produkt-Blogs und Newsletter sowie andere Informationsquellen im Zusammenhang mit all diesen Produkten und Tools der verschiedenen Anbieter gelesen? Die Wahrscheinlichkeit ist groß, dass die Antwort nein lautet.
Im Falle eines kritischen Problems, eines anhaltenden Ausfalls oder eines kritischen Sicherheitsereignisses ist es wichtig zu wissen, über welche Kanäle sich die Anbieter mit uns in Verbindung setzen - oder wir mit ihnen -, um sicherzustellen, dass wir diese Informationen erhalten, ohne ihnen hinterherlaufen zu müssen.
Frage 7. Was sind mögliche Hindernisse für die Wiederaufnahme des Betriebs?
Manchmal kommt es zu Situationen, in denen wir Werkzeuge oder Produkte auf eine Art und Weise verwenden, die unerwartete Folgen hat und die Wiederherstellung nach einer Situation wie einem Ausfall erschweren kann.
Ein Faktor, der die Komplexität des CrowdStrike-Vorfalls erhöhte, war BitLocker, die Festplattenverschlüsselungsfunktion von Windows, auf den betroffenen Geräten. Das Vorhandensein von BitLocker erforderte zusätzliche Schritte - zum Beispiel die Beschaffung und Eingabe von Wiederherstellungsschlüsseln, die aufgrund des Ausfalls oft nicht ohne Weiteres verfügbar waren.
Es lohnt sich, einige Zeit darauf zu verwenden, zu untersuchen und zu hinterfragen, welche Faktoren die Wiederherstellung erschweren oder zusätzliche Schritte zur Lösung erfordern könnten, wenn man Anbieter und Risiken betrachtet.
Frage 8: Was ist kritisch, und wie kritisch ist es?
Diese Frage richtet sich an interne Teams, nicht an Lieferanten oder Anbieter. Diese Informationen sind jedoch wichtig - insbesondere Informationen darüber, welche Anwendungen, Prozesse und Systeme entscheidend sind und wer sie kontrolliert.
So gut wie alle Technikexperten wissen, wie wichtig die Planung der Geschäftskontinuität ist. Dazu gehören auch Instrumente wie die Analyse der Auswirkungen auf den Geschäftsbetrieb (Business Impact Analysis, BIA), mit denen die oben genannten Datenpunkte ermittelt werden sollen. Manchmal können diese Aufgaben jedoch in der Hektik des Alltags untergehen.
Die Praktiker müssen über die BIA-Bemühungen auf dem Laufenden bleiben, um sicherzustellen, dass wir im Falle eines Ausfalls schnell und effizient reagieren können.
Frage 9: Welches ist der interne Kommunikationskanal für Notfälle?
Es ist wichtig, eine klare interne Kommunikationsstrategie für ausfallbedingte Probleme zu haben. Das sollte eigentlich selbstverständlich sein, aber zu viele Unternehmen haben auf die schmerzhafte Art und Weise gelernt, dass der Zeitpunkt für eine neue Kommunikationsstrategie nicht in der Mitte eines anhaltenden und weitreichenden Ausfalls liegt.
Nehmen Sie dies zum Anlass, Ihre Strategie für die Krisenkommunikation auf ihre Angemessenheit zu überprüfen.
Frage 10: Was ist das Bedrohungsmodell?
Dies ist eine weitere Frage, die man sich eher intern als extern stellen sollte. Es ist nützlich, Systeme und Software, die in kritische Umgebungen eingebracht werden, aus der Sicht des Angreifers zu betrachten - insbesondere durch die Erstellung eines Bedrohungsmodells. Viele von uns sind es gewohnt, Bedrohungsmodelle für die Anwendungssicherheit zu verwenden. Wir können denselben oder einen ähnlichen Prozess auf Dienste und Tools anwenden, die wir nicht unbedingt selbst schreiben.
Nutzen Sie insbesondere Prozesse zur Bedrohungsmodellierung, um Risikokontrollstrategien für Anbieter und Anwendungen für Geschäftsrisiken zu entwickeln, die Sie intern einsetzen.