Definition

Root Cause Analysis (Ursachenanalyse)

Was ist eine Root Cause Analysis (Ursachenanalyse)?

Die Ursachenanalyse – auch Fehler-Ursache-Analyse (Root Cause Analysis, RCA) - ist eine Methode zum Verständnis der zugrunde liegenden Ursache eines beobachteten oder erlebten Vorfalls. Bei einer RCA werden die ursächlichen Faktoren des Vorfalls untersucht, wobei man sich darauf konzentriert, warum, wie und wann sie aufgetreten sind. Eine Organisation leitet häufig eine RCA ein, um die Hauptursache eines Problems zu ermitteln und sicherzustellen, dass es sich nicht wiederholt.

Wenn ein System ausfällt oder sich verändert, sollten die Ermittler eine RCA durchführen, um den Vorfall und seine Ursachen vollständig zu verstehen. Die Ursachenanalyse geht einen Schritt weiter als die Problemlösung, bei der es sich um Abhilfemaßnahmen handelt, die nach Auftreten des Vorfalls ergriffen werden. Im Gegensatz dazu geht eine RCA der Ursache eines Problems auf den Grund.

In einigen Fällen wird eine Ursachenanalyse eingesetzt, um besser zu verstehen, warum ein System auf eine bestimmte Art und Weise funktioniert oder besser abschneidet als vergleichbare Systeme. In den meisten Fällen liegt der Schwerpunkt jedoch auf Problemen - vor allem, wenn sie kritische Systeme betreffen. Eine RCA identifiziert alle Faktoren, die zu dem Problem beitragen, und stellt eine sinnvolle Verbindung zwischen den Ereignissen her, so dass das Problem richtig angegangen und ein erneutes Auftreten verhindert werden kann. Nur wenn man das Problem an der Wurzel packt, anstatt sich auf die Symptome zu konzentrieren, kann man feststellen, wie, wann und warum das Problem aufgetreten ist.

Probleme, die eine Ursachenforschung rechtfertigen, können auf menschliches Versagen, Fehlfunktionen physischer Systeme, Probleme mit den Prozessen oder Abläufen einer Organisation oder auf eine Reihe anderer Gründe zurückzuführen sein. Beispielsweise könnten Ermittler eine RCA einleiten, wenn Maschinen in einer Produktionsanlage ausfallen, ein Flugzeug notlandet oder eine Webanwendung eine Dienstunterbrechung erfährt. Jede Art von Anomalie kann möglicherweise eine Untersuchung erforderlich machen.

Ziele und Vorteile der Ursachenanalyse

Der Hauptzweck der Ursachenanalyse besteht darin, das Risiko für die gesamte Organisation zu verringern. Die bei diesem Prozess gewonnenen Informationen können dazu verwendet werden, die Zuverlässigkeit eines Systems zu verbessern. Die Hauptziele einer Ursachenanalyse sind dreierlei:

Ermitteln Sie genau, was vorgefallen ist, und gehen Sie dabei über die Symptome hinaus, um die tatsächliche Abfolge der Ereignisse und die Hauptursachen herauszufinden.

Verstehen, was erforderlich ist, um den Vorfall zu beheben oder die aus dem Vorfall gezogenen Lehren anzuwenden, wobei die ursächlichen Faktoren zu berücksichtigen sind.

Wenden Sie das Gelernte an, um zu verhindern, dass das Problem erneut auftritt, oder um die zugrunde liegenden Bedingungen zu beseitigen.

Wenn eine RCA diese Ziele erreicht, kann sie einer Organisation die folgenden Vorteile bieten:

  • Optimieren Sie Systeme, Prozesse oder Abläufe, indem Sie Einblicke in die zugrunde liegenden Probleme und Hindernisse erhalten.
  • Verhindern Sie, dass sich gleiche oder ähnliche Probleme wiederholen, und sorgen Sie für eine bessere Qualitätssicherung.
  • Bessere Qualität der Kunden- und Serviceleistungen durch effizientere und gründlichere Bearbeitung von Problemen.
  • Verbesserung der internen Kommunikation und Zusammenarbeit sowie der Kenntnisse über die zugrunde liegenden Systeme.
  • Verringerung der Zeit, die langfristig für die Lösung von Problemen aufgewendet wird, anstatt sich immer wieder auf die Symptome zu konzentrieren.
  • Senken Sie die Kosten, indem Sie das Problem früher an der Wurzel packen, anstatt ständig nur die Symptome zu behandeln.

Die Ursachenanalyse kann für eine Vielzahl von Branchen von Nutzen sein. Wenn sie effektiv eingesetzt wird, kann sie dazu beitragen, medizinische Behandlungen zu verbessern, Verletzungen am Arbeitsplatz zu reduzieren, die Leistung von Anwendungen zu verbessern, die Betriebszeit von Infrastrukturen zu optimieren, die Wartung von Maschinen zu minimieren, den Transport sicherer zu machen und von einer Vielzahl anderer Systeme und Prozesse zu profitieren.

Grundsätze der Ursachenanalyse

Die Ursachenanalyse ist flexibel genug, um sich an unterschiedliche Branchen und individuelle Umstände anzupassen. Doch neben dieser Flexibilität sind die folgenden vier wichtigen Grundsätze für eine funktionierende RCA unerlässlich:

1. Ermitteln Sie, warum, wie und wann der Vorfall eingetreten ist

Diese Fragen ergeben zusammen ein vollständiges Bild der zugrunde liegenden Ursachen. Es ist zum Beispiel schwierig zu wissen, warum ein Ereignis eingetreten ist, wenn man nicht weiß, wie oder wann es passiert ist. Die Ermittler müssen das ganze Ausmaß eines Vorfalls und alle wichtigen Faktoren aufdecken, die dazu beigetragen haben, dass er sich zum Zeitpunkt des Geschehens ereignet hat.

2. Konzentrieren Sie sich auf die zugrunde liegenden Ursachen, nicht auf die Symptome

Wenn ein Problem auftritt und nur die Symptome bekämpft werden, wird selten verhindert, dass das Problem erneut auftritt, und es können sowohl Zeit als auch Ressourcen verschwendet werden. Ein RCA-Projekt sollte sich stattdessen auf die Beziehungen zwischen den Ereignissen und die dem Vorfall zugrunde liegenden Ursachen konzentrieren. Dies kann dazu beitragen, den Zeit- und Ressourcenaufwand für die Lösung von Problemen zu verringern und langfristig eine tragfähige Lösung zu gewährleisten.

3. Denken Sie an Prävention, wenn Sie die Fehleranalyse zur Problemlösung einsetzen

Um effektiv zu sein, muss eine RCA die Ursachen eines Problems aufdecken - aber das reicht nicht aus. Es muss auch möglich sein, Lösungen zu implementieren, die verhindern, dass das Problem erneut auftritt. Wenn die Ursachenanalyse nicht dazu beiträgt, das Problem zu beheben und zu verhindern, dass es erneut auftritt, ist ein Großteil der Bemühungen umsonst gewesen.

4. Von Anfang an alles richtig machen

Eine Ursachenanalyse ist nur so erfolgreich wie die Anstrengungen, die dahinter stehen. Eine schlecht durchgeführte RCA kann Zeit und Ressourcen verschwenden. Sie kann die Situation sogar verschlimmern und die Ermittler dazu zwingen, von vorne zu beginnen. Eine effektive Ursachenanalyse muss sorgfältig und systematisch durchgeführt werden. Sie erfordert die richtigen Methoden und Instrumente sowie eine Führung, die den Aufwand versteht und ihn voll unterstützt.

Methoden der Ursachenanalyse

Eine der gängigsten Methoden für die Ursachenanalyse ist die Fünf-Warum-Fragen-Methode. Bei diesem Ansatz wird das Problem definiert und dann bei jeder Antwort die Frage nach dem „Warum“ gestellt. Die Idee ist, so lange zu forschen, bis man Gründe aufdeckt, die das "Warum" des Geschehens erklären. Die Zahl fünf im Namen der Methode ist nur ein Anhaltspunkt, denn es können weniger oder mehr „Warum“-Fragen nötig sein, um zu den Ursachen des ursprünglich definierten Problems zu gelangen.

Ein anderer bekannter Ansatz für RCA ist die Erstellung eines Ishikawa-Diagramms oder Fischgräten-Diagramms, bei dem das Problem im Kopf der Fischgräte definiert wird und seine Ursachen und Auswirkungen dahinter ausgebreitet werden. Mögliche Ursachen werden in Kategorien gruppiert, die mit dem Rückgrat verbunden sind und einen Gesamtüberblick über die Ursachen geben, die zu dem Vorfall geführt haben könnten.

Die folgenden Methoden stehen den Ermittlern bei der Durchführung einer Ursachenanalyse ebenfalls zur Verfügung:

  • Fehlermöglichkeits- und -einflussanalyse (FMEA, Failure Mode and Effects Analysis). Bei der FMEA werden verschiedene Möglichkeiten ermittelt, wie ein System ausfallen kann, und dann die möglichen Auswirkungen jedes Fehlers analysiert.
  • Fehlerbaumanalyse (FTA Fault Tree Analysis). Die FTA bietet eine visuelle Darstellung von Kausalbeziehungen, die boolesche Logik verwendet, um die möglichen Ursachen eines Fehlers zu bestimmen oder die Zuverlässigkeit eines Systems zu testen.
  • Pareto-Diagramm. Dabei handelt es sich um eine Kombination aus Balken- und Liniendiagramm, das die Häufigkeit der häufigsten Problemursachen von links nach rechts auflistet, beginnend mit der wahrscheinlichsten.
  • Analyse der Veränderungen. Bei dieser Art von Analyse wird untersucht, wie sich die Bedingungen im Umfeld des Vorfalls im Laufe der Zeit verändert haben, was eine direkte Rolle bei der Entstehung des Vorfalls spielen kann.
  • Punktediagramm. Bei dieser Art von Diagramm werden die Daten in einem zweidimensionalen Diagramm mit einer x- und einer y-Achse dargestellt, um die Beziehungen zwischen den Daten und den möglichen Ursachen eines Vorfalls aufzudecken.

Es gibt auch mehrere weitere Ansätze, die für RCA verwendet werden. Fachleute, die sich auf die Ursachenanalyse konzentrieren und eine kontinuierliche Verbesserung der Zuverlässigkeit anstreben, sollten mehrere Methoden kennen und die für ein bestimmtes Szenario geeignete Methode anwenden.

Eine erfolgreiche Ursachenanalyse hängt auch von einer guten Kommunikation innerhalb der an einem System beteiligten Gruppen und Mitarbeiter ab. Eine Nachbesprechung nach einer RCA - oft als Post-Mortem bezeichnet - trägt dazu bei, dass die Hauptakteure die Zeiträume der zufälligen oder verwandten Faktoren, ihre Auswirkungen und die angewandten Lösungsmethoden verstehen. Der Informationsaustausch nach der Untersuchung kann auch zu einem Brainstorming über andere Bereiche führen, die möglicherweise untersucht werden müssen, und darüber, wer welche Bereiche untersuchen sollte.

Werkzeuge für die Ursachenanalyse

Die Ursachenanalyse ist ein Prozess, bei dem menschliche Schlussfolgerungen mit Tools zur Datenerfassung und Berichterstellung kombiniert werden. IT-Teams greifen häufig auf die Plattformen zurück, die sie bereits für die Überwachung der Anwendungsleistung, der Infrastrukturleistung oder des Systemmanagements verwenden - einschließlich Cloud-Management-Tools -, um die Hintergrunddaten zu erhalten, die sie für die Durchführung der Ursachenanalyse benötigen.

Viele dieser Produkte enthalten auch Funktionen, die in ihre Plattformen integriert sind und bei der Ursachenanalyse helfen. Darüber hinaus bieten einige Anbieter Tools an, die Metriken von anderen Plattformen sammeln und korrelieren, um die Behebung eines Problems oder Ausfalls zu unterstützen. Tools mit AIOps-Funktionen sind in der Lage, aus früheren Ereignissen zu lernen, um in Zukunft Abhilfemaßnahmen vorzuschlagen.

Zusätzlich zu den Überwachungs- und Analysetools greifen IT-Organisationen oft auf externe Quellen zurück, um die Ursachenanalyse zu unterstützen. So können IT-Teammitglieder beispielsweise das AWS Health Dashboard prüfen, um sich über Serviceprobleme zu informieren, oder sie können an externen Diskussionen teilnehmen, um das Fachwissen anderer zu Themen im Zusammenhang mit ihrer RCA zu erhalten.

Beispiele für Ursachenanalysen

Die Ursachenanalyse wird von einer Vielzahl von Branchen und in einer Vielzahl von Situationen eingesetzt, was sie zu einem äußerst wertvollen Instrument macht, das flexibel genug ist, um sich an spezifische Umstände anzupassen. Im Folgenden finden Sie Beispiele für RCA in der Praxis, aber die Einsatzmöglichkeiten sind nahezu grenzenlos.

Beispiel 1: Unterbrechung des E-Mail-Dienstes. Die Benutzer konnten zwei Stunden lang keine E-Mail-Nachrichten senden oder empfangen, und der Geschäftsführer möchte wissen, was passiert ist. Das IT-Team wird mit der Durchführung einer Ursachenanalyse beauftragt.

Das Team beginnt damit, eine Problemstellung zu definieren und relevante Daten zu sammeln. Als Nächstes verwenden sie die Fünf-Warum-Fragen-Methode, um die beitragenden Ereignisse und die zugrunde liegende Ursache wie folgt aufzudecken:

  • Warum funktionieren die E-Mails nicht mehr? Weil der E-Mail-Verkehr unterbrochen wurde.
  • Warum wurde der E-Mail-Verkehr unterbrochen? Weil jemand im Laufe des Tages Patches installiert hat.
  • Warum wurde das Update tagsüber aufgespielt? Weil der Administrator die Regeln der IT-Prozesse nicht befolgt hat, nach denen Patches nach den Geschäftszeiten aufgespielt wurden.
  • Warum kam es zu einem zweistündigen Ausfall? Weil ein Patch einen Dienst deaktiviert hat und es so lange gedauert hat, bis die Störung behoben war.

Die Antworten auf die „Warum“-Fragen geben einen Überblick darüber, was passiert ist und was schief gelaufen ist. Anhand dieser Informationen kann das IT-Team Maßnahmen ergreifen, um die Patching-Verfahren zu verbessern und zu verhindern, dass dieselbe Situation in Zukunft auftritt.

Beispiel 2: Rückgang der aktiven Benutzer einer mobilen App. Die Zahl der aktiven Nutzer einer beliebten mobilen App ist in den letzten zwei Wochen stetig gesunken, und mehrere Teams innerhalb des Unternehmens versuchen, sich einen Reim darauf zu machen, was passiert ist. Einzelpersonen aus jedem dieser Teams arbeiten zusammen, um eine RCA durchzuführen.

Nach dem Sammeln der erforderlichen Daten erstellt das RCA-Team ein Fischgrätendiagramm, um mögliche Ursachen und ihre Auswirkungen besser zu verstehen. Die Teammitglieder erstellen das folgende Diagramm.

In diesem Diagramm wird das Problem am Anfang der Fischgrätenform definiert, und seine Ursachen und Auswirkungen werden dahinter ausgebreitet.
Abbildung 1: In diesem Diagramm wird das Problem am Anfang der Fischgrätenform definiert, und seine Ursachen und Auswirkungen werden dahinter ausgebreitet.

Anhand des Diagramms können sie alle potenziellen Grundursachen ermitteln und auf dieser Grundlage jede einzelne Ursache auf ihre Realisierbarkeit hin untersuchen. So können sie beispielsweise anhand der von ihrer Überwachungssoftware generierten Daten überprüfen, ob es Probleme mit der Infrastrukturleistung oder den Backend-Systemen gegeben hat.

Nach der Analyse der einzelnen potenziellen Ursachen stellt das RCA-Team fest, dass die wahrscheinlichste Ursache die kürzliche Veröffentlichung einer ähnlichen App eines führenden Wettbewerbers war. Die App wurde gut vermarktet, enthielt innovative Technologie und war mit mehreren Diensten von Drittanbietern integriert.

Anhand dieser Informationen entwickelt das Team eine Strategie zur Beschleunigung der nächsten Aktualisierung der eigenen Anwendung, um einen Wettbewerbsvorteil gegenüber der anderen Anwendung zu erzielen. Diese Informationen werden auch an die Marketing- und Kundensupportteams weitergegeben, damit diese auf die nächste Version vorbereitet sind.

Abbildung 2: Obwohl es zahlreiche Ansätze für eine Ursachenanalyse gibt, sollte ein Team mit diesen fünf grundlegenden Schritten beginnen.Obwohl es zahlreiche Ansätze für eine Ursachenanalyse gibt, sollte ein Team mit diesen fünf grundlegenden Schritten beginnen.
Abbildung 2: Obwohl es zahlreiche Ansätze für eine Ursachenanalyse gibt, sollte ein Team mit diesen fünf grundlegenden Schritten beginnen.Obwohl es zahlreiche Ansätze für eine Ursachenanalyse gibt, sollte ein Team mit diesen fünf grundlegenden Schritten beginnen.

Wie man eine Ursachenanalyse durchführt

Die Durchführung einer Ursachenanalyse kann ein komplexes Unterfangen sein, das sowohl Zeit als auch Ressourcen erfordert. Ein Team, das eine RCA durchführt, sollte einen systematischen Ansatz wählen, der auf offener Kommunikation und sorgfältiger Planung beruht. Obwohl es keinen einheitlichen Ansatz für die RCA gibt, sollte ein Team mit den folgenden fünf grundlegenden Schritten beginnen:

1. Definieren Sie das Problem. Es mag offensichtlich erscheinen, aber der erste Schritt sollte darin bestehen, das Problem so präzise wie möglich zu benennen, um sicherzustellen, dass alle RCA-Teilnehmer das Ausmaß und den Umfang des Problems verstehen, dass sie zu lösen versuchen.

  • Erstellen Sie eine klar definierte Problemstellung.
  • Ermitteln Sie die spezifischen Symptome des Problems.
  • Dokumentieren Sie die Auswirkungen des Problems auf das Zielsystem sowie die peripheren und unterstützenden Systeme.
  • Vergewissern Sie sich, dass alle wichtigen Akteure die Art des Problems verstehen und sich darüber einig sind.
  • Wenn es mehrere Probleme gibt, sollten Sie sie nacheinander angehen.

2. Sammeln Sie alle relevanten Daten. Die Ermittler benötigen alle erforderlichen Daten, um sicherzustellen, dass sie über die erforderlichen Beweise verfügen, um das gesamte Ausmaß des Vorfalls und den Zeitrahmen, in dem er sich ereignet hat, zu verstehen.

  • Das Sammeln von Daten sollte ein methodischer Prozess sein, der sorgfältig dokumentiert und überprüft wird.
  • Die Ermittler benötigen ausnahmslos Zugang zu allen relevanten Beweisen im Zusammenhang mit dem Vorfall.
  • Die Daten sollten alle Informationen über den Vorfall selbst und alle vermuteten Ursachen enthalten.
  • Die gesammelten Daten sollten den gesamten maßgeblichen Zeitraum abdecken, was auch Daten aus der Zeit vor und nach dem Vorfall umfassen kann.
  • Die Daten sollten auch Einzelheiten über besondere Umstände oder Umweltfaktoren enthalten, die zu dem Vorfall beigetragen haben könnten.

3. Identifizieren und Zuordnen von Ereignissen. Die Ermittler sollten in der Lage sein, alle Ereignisse, die zu dem Vorfall beigetragen haben, zu verstehen und zu verfolgen, und wie diese Ereignisse miteinander in Beziehung gesetzt werden können.

  • Das RCA-Team sollte die Abfolge der Ereignisse und den Zeitrahmen, in dem sie stattfanden, ermitteln.
  • Das Team sollte auch die Bedingungen ermitteln, unter denen die Ereignisse eingetreten sind.
  • Die Ereignisse sollten miteinander in Beziehung gesetzt werden, um festzustellen, welche Verbindungen zwischen ihnen bestehen könnten.
  • Die gesammelten Daten sollten auf kausale Faktoren untersucht werden, die zu den Ereignissen beigetragen haben oder die in irgendeiner Weise mit den Ereignissen in Verbindung stehen.
  • Alle anderen Faktoren, die möglicherweise zu dem Vorfall beigetragen haben könnten, sollten untersucht werden.

4. Identifizieren Sie die Grundursache. Nach der Erfassung der Daten und der Zuordnung der Ereignisse sollten die Ermittler damit beginnen, die dem Vorfall zugrunde liegenden Ursachen zu ermitteln und auf eine Lösung hinzuarbeiten.

  • Die Ermittler müssen alle beitragenden Faktoren und relevanten Daten analysieren.
  • Anhand ihrer Analyse sollten die Ermittler alle potenziellen Grundursachen ermitteln, die unter den gegebenen Umständen möglich erscheinen.
  • Die Ermittler sollten jede potenzielle Ursache sorgfältig analysieren, die am wenigsten brauchbaren ausschließen und die Ursachen, die am wahrscheinlichsten zu dem Vorfall beigetragen haben, genauer untersuchen.
  • Möglicherweise haben mehrere Ursachen zu dem Vorfall beigetragen, die alle identifiziert und analysiert werden müssen.
  • Nach der Identifizierung der tatsächlichen Ursachen sollten die Ermittler versuchen, deren Gültigkeit zu bestätigen, indem sie die Umstände simulieren, die zu dem Vorfall geführt haben, sofern dies praktikabel ist.

5. Umsetzung einer Lösung. Nachdem die Ursachen des Vorfalls ermittelt wurden, sollten die Ermittler einen Aktionsplan aufstellen, wie das Grundproblem angegangen werden kann, damit es in Zukunft nicht mehr auftritt.

  • Die Lösung sollte sich auf die im ersten Schritt erstellte Problembeschreibung zurückführen lassen.
  • Die Ermittler sollten sorgfältig skizzieren, was getan werden muss und was dafür erforderlich ist, einschließlich der möglichen Auswirkungen auf Personen oder Betriebsumgebungen.
  • Das RCA-Team sollte mit Hilfe anderer Personen eine Strategie für die Umsetzung der Lösung erarbeiten und dabei Faktoren wie Zeitpläne, Budgets und spezifische Rollen berücksichtigen.
  • Die Ermittler sollten alle potenziellen Hindernisse für die Umsetzung der Lösung ermitteln.
  • Nach der Einführung der Lösung sollte das RCA-Team die Umsetzung sorgfältig überwachen und bewerten, um sicherzustellen, dass die Lösung die zugrunde liegenden Probleme wirksam angegangen ist.

Bei der Durchführung einer Ursachenanalyse sollten die Ermittler die für ihre jeweilige Situation am besten geeigneten Methoden und Instrumente verwenden. Sie sollten auch ein System zur Überprüfung jeder Phase der RCA-Bemühungen einrichten, um sicherzustellen, dass jeder Schritt korrekt durchgeführt wird. Als Teil dieses Prozesses sollten die Prüfer jede Phase sorgfältig dokumentieren, angefangen bei der Problemerklärung bis hin zur Umsetzung der Lösung.

Diese Definition wurde zuletzt im Oktober 2024 aktualisiert

Erfahren Sie mehr über IT-Sicherheits-Management