Gina Sanders - stock.adobe.com
Weltweite IT-Ausfälle zeigen Fragilität einer Softwarewelt
Ein fehlerhaftes Update eines Anbieters und eine Cloud-Fehlkonfiguration sorgten weltweit für massive IT-Ausfälle. Das die Folgen so weitreichend sind, kommt nicht von ungefähr.
Der 19. Juli 2024 war geprägt von Meldungen und Berichten zu weitreichenden IT-Ausfällen, die durch ein fehlerhaftes Crowdstrike-Update und eine Fehlkonfiguration bei Microsoft Azure ausgelöst wurden. Zwar existieren widersprüchliche Berichte, aber bislang sind es zwei voneinander getrennte Ereignisse und ein Zusammenhang unklar.
Während Microsoft seine Azure-spezifischen Probleme behoben hat, hat CrowdStrike immer noch mit den Nachwirkungen eines Updates zu kämpfen, das eine fehlerhafte Sensordatei ausgab, die bei Windows-Systemen den Bluescreens (BSOD, Blue Screen of Death) hervorrief. Dieses Problem betraf Millionen von Desktops, Notebooks und Servern, die die CrowdStrike Falcon-Plattform nutzen, und seine Folgen gehen weit über diese Systeme hinaus.
Das CrowdStrike-Problem ist besonders herausfordernd, da die Umgehungslösung den direkten Zugriff auf jeden betroffenen Computer erfordert. Zwar lässt sich dies bei Geräten mit Remote-Tastatur-, Video- und Mausfunktionen wie einigen Servern oder Maschinen mit Intel vPro vermeiden, doch handelt es sich dabei um einen relativ kleinen Prozentsatz der Geräte.
Erschwerend kommt hinzu, dass viele Endgeräte BitLocker-Festplattenverschlüsselung verwenden und die Schlüssel möglicherweise nicht lokal oder überhaupt nicht verfügbar sind, da das System nicht reagiert. Außerdem erfordert die Änderung des Systems im abgesicherten Modus Administratorrechte, so dass normale Benutzerkonten keinen Zugriff haben, um die Änderungen vorzunehmen. Das bedeutet, dass entweder ein Administrator anwesend sein muss oder die Administrator-Anmeldedaten dem Endbenutzer mitgeteilt werden müssen, damit er sie eingeben kann. Letzteres ist natürlich ein großes Sicherheitsrisiko, das dazu führt, dass alle lokalen Administratorkennwörter geändert werden müssen.
Es scheint jedoch, dass Systeme, die in einer Neustart-Schleife allein gelassen werden, sich schließlich selbst reparieren, da der Rechner die Update-Server von CrowdStrike kontaktiert, bevor der Bluescreen ausgelöst wird. Es ist nur eine Frage der Zeit, wann das Update heruntergeladen wird, aufgrund der aktuellen Situation mag es da zu Verzögerungen kommen.
Beim Bundesamt für Sicherheit in der Informationstechnik (BSI) finden sich Informationen zu den Problemen sowie die Anleitungen des Workarounds. Das BSI weist darauf hin, dass Kriminelle die Situation bereits ausnutzen und Phishing, Scam sowie gefälschte Websites im Umlauf sind. Es sei auch bereits manipulierter Code unterwegs. Unternehmen sollten ausschließlich auf Informationen direkt von Crowdstrike setzen. Das BSI hat seine Informationen am 20. Juli aktualisiert.
Schuldzuweisungen verbessern die Situation nicht
Während ein Großteil der Auswirkungen auf den Ruf von CrowdStrike von der technischen und organisatorischen Reaktion des Unternehmens auf dieses Problem abhängt, werden andere Anbieter dies unter Umständen als Gelegenheit für Statements nutzen. Das ist immer ein schwieriges Unterfangen, denn nächste Woche könnte ein anderer Anbieter die Ursache für ein anderes öffentlichkeitswirksames Problem sein. Mit dem Finger auf andere zu zeigen, ist selten eine effektive langfristige Strategie.
Der Weg für Wettbewerber könnte darin bestehen, zu demonstrieren, wie ihre Prozesse diese Art von Problemen vermeiden. Aber die Mitbewerber dürfen sich nicht zu weit aus dem Fenster lehnen, weil sie sonst das Vertrauen der Kunden verlieren, wenn ihnen ein Problem passiert.
Wenn jemand davon profitiert, dann könnte es Microsoft sein. Drittanbieter müssen immer rechtfertigen, warum Kunden ihre Produkte kaufen sollten, wenn Microsoft bereits auf ihren Systemen installiert ist. Kunden suchen immer nach Gründen, um Kosten zu sparen. Auch wenn die Unternehmen vielleicht zögern, alles auf eine Karte zu setzen, könnten sie dies damit begründen, dass mit der steigenden Anzahl von Anbietern die Wahrscheinlichkeit steigt, dass einer von ihnen ein großes Problem hat.
Ist das die neue Normalität?
Das CrowdStrike-Problem in Verbindung mit einem relativ banalen Ausfall von Azure - ich will es nicht verharmlosen, aber Cloud-Ausfälle kommen von Zeit zu Zeit vor - sorgt verständlicherweise für Aufregung in IT-Organisationen. Plötzlich erscheinen Dinge, die stabil schienen, als fragil.
Das erinnert an die Fabel "Der Skorpion und der Frosch". Falls Sie sie nicht kennen: Ein Skorpion bittet einen Frosch, ihm beim Überqueren eines Flusses zu helfen. Der Frosch will nicht, weil er Angst hat, dass der Skorpion ihn sticht, aber der Skorpion überzeugt ihn, dass er den Frosch nicht sticht, da sie beide sterben würden. Auf halbem Weg über den Fluss sticht der Skorpion den Frosch jedoch trotzdem. Als sie untergehen, fragt der Frosch, warum, worauf der Skorpion antwortet: „Ich kann nicht anders. Es liegt in meiner Natur.“
Wir sind alle, ob wir es wollen oder nicht, in unserem täglichen Leben auf Technologie angewiesen sind, und so gut, stabil, effektiv oder leistungsfähig eine Technologie heute auch sein mag, sie ist immer noch Software. Tatsächlich haben wir eine softwaregesteuerte Welt um uns herum aufgebaut, die auf Prozessen beruht, von denen wir glauben, dass sie sicher genug sind, um Dinge wie diese zu verhindern - bis sie es nicht sind.
Die Tatsache, dass diese Ausfälle von CrowdStrike und Microsoft verursacht wurden, ist fast irrelevant. Es könnte jeder gewesen sein. Das bedeutet nicht, dass man sich nicht über diese Vorfälle aufregen oder Maßnahmen ergreifen sollte, um zu verhindern, dass man in Zukunft von derartigen Problemen betroffen ist. Aber es bedeutet, dass wir uns bewusst sein sollten, dass in einer softwaredefinierten, technologiegesteuerten Welt Bugs - und Ausfälle - vorkommen. Sie liegen in ihrer Natur.
Die Enterprise Strategy Group ist ein Geschäftsbereich von TechTarget. Ihre Analysten unterhalten Geschäftsbeziehungen zu Technologieanbietern.