Gorodenkoff - stock.adobe.com

Die wichtigsten Metriken für das IT-Monitoring kennen

Das IT-Monitoring ist ein wichtiger Aspekt beim Betreiben einer IT-Abteilung. Aber damit die Überwachung sinnvoll gestaltet ist, müssen Sie die richtigen Metriken verwenden.

Je komplexer eine IT-Infrastruktur wird, desto wichtiger ist es, dass Sie den Überblick nicht verlieren. Dabei hilft die flächendeckende Implementierung von IT-Monitoring-Strategien, um jederzeit Probleme aufzudecken. Auf lange Sicht können Sie so die Effizienz steigern, Leistungsprobleme vermeiden und Kosten einsparen.

Jedoch gibt es viele unterschiedliche Bereiche, die Sie innerhalb Ihrer IT-Infrastruktur überwachen können. Entscheidend dabei ist, welche Metriken für Sie und Ihr Unternehmen am wichtigsten sind. Um letztendlich die richtige Monitoring-Strategie zu entwickeln, geben wir Ihnen einen Überblick über unterschiedliche Metriken.

Wichtige Metriken, die in eine IT-Monitoring-Strategie aufgenommen werden sollten

Es gibt keine universelle Suite von Metriken, die für alle Unternehmen und Branchen geeignet ist. Es gibt jedoch einige allgemeine Kategorien und Datenpunkte, die typischerweise in einem Monitoring-Plan enthalten sind.

Es gibt fünf allgemeine Kategorien für Metriken und KPIs:

1. Leistung

2. Qualität

3. Sicherheit

4. Schnelligkeit

5. Wert

Für jede Kategorie gibt es eine Reihe gemeinsamer Metriken, die zu berücksichtigen sind. Im Folgenden wird nur eine kleine Auswahl möglicher Messgrößen als Beispiel dargestellt.

Leistungsmetriken

Leistungsdaten geben Aufschluss über den Betriebszustand von Arbeitslasten, Diensten und Infrastruktur. Sie sind in der Regel für IT-Teams am wichtigsten und umfassen Folgendes:

  • Die Kapazität ist die Menge an Ressourcen, die von einem System oder einer Anwendung genutzt werden oder dafür zur Verfügung stehen.
  • Fehler sind die Anzahl der fehlgeschlagenen Abfragen oder Anfragen – oder andere Probleme – die im Laufe der Zeit auftreten.
  • Der Zustand beschreibt die Verfügbarkeit und den Gesamtzustand einer Anwendung oder eines Systems.
  • Die mittlere Zeit zwischen Ausfällen (Mean Time Between Failures, MTBF) ist die durchschnittliche Zeit zwischen Vorfällen oder Ausfällen, die ein Eingreifen erfordern.
  • Die mittlere Zeit bis zur Reperatur (MTTR) ist die durchschnittliche Zeit, die benötigt wird, um einen Vorfall oder einen Ausfall zu beheben oder zu entschärfen.
  • Die Antwortzeit ist die Zeit, die benötigt wird, um auf eine Abfrage oder Anforderung zu reagieren – manchmal auch als Latenz bezeichnet.
  • Der Durchsatz ist die Anzahl der Abfragen oder Anfragen, die ein System im Laufe der Zeit bearbeiten kann.

Qualitätsmetriken

Qualitätsmetriken skizzieren und quantifizieren UX. Diese Daten können für Unternehmens- und Technologieführer sowie für Softwareentwickler und Workload-Stakeholder nützlich sein. Faktoren wie Zustand, Fehler und Ausfallraten sind häufig Teil der Qualitätsdiskussion. Zu den weiteren Qualitätsmetriken gehören die folgenden:

  • Die Fehlerdichte ist die Anzahl oder Rate der Fehler, die während eines Software-Build- oder Testzyklus auftreten.
  • Entgangene Fehler werden während des Testzyklus nicht entdeckt und treten erst bei einer späteren Bereitstellung auf.
  • Die Pass/Fail-Rate ist die Anzahl oder der Prozentsatz erfolgreicher Commit-to-Build-Zyklen – oft im Vergleich zu der Anzahl oder dem Prozentsatz erfolgloser Commit-to-Build-Zyklen.
  • Der Durchsatz ist die Rate neuer Builds oder die Geschwindigkeit, mit der die Arbeit durchgeführt wird.
  • UX ist eine flexible Metrik, die oft aus anderen Faktoren wie Reaktionszeit und Fehlerrate abgeleitet wird.

Sicherheitsmetriken

Sicherheitsmetriken werden zur Quantifizierung von Problemen im Zusammenhang mit der Einhaltung von Vorschriften und Risiken verwendet und können sowohl für IT-Teams, die für die Sicherheit verantwortlich sind, als auch für Entwickler, die neuen Code erstellen, und für Unternehmensleiter, die für die Auswirkungen von Vorschriften und Governance verantwortlich sind, von entscheidender Bedeutung. Zu den gängigen Sicherheitsmetriken gehören die folgenden:

  • Die Code-Qualität wird vor einem Build bewertet.
  • Unter erkannten Problemen versteht man die Anzahl oder Rate von Sicherheitsvorfällen wie entdeckte Angriffe, missbräuchliche Anmeldeversuche, blockierte böswillige Handlungen und versuchte nicht autorisierte Änderungen.
  • Die durchschnittliche Zeit, die benötigt wird, um eine Schwachstelle im Code oder in der Infrastruktur zu finden, ist die mittlere Zeit bis zur Entdeckung von Schwachstellen.
  • Die mittlere Zeit bis zur Behebung von Schwachstellen ist die durchschnittliche Zeit, die benötigt wird, um eine Schwachstelle im Code oder in der Infrastruktur zu beheben, nachdem sie entdeckt wurde.
  • Die Anzahl oder Rate der kritischen oder schwerwiegenden Schwachstellen, die im Code oder in der Infrastruktur entdeckt wurden, werden ermittelt.
  • Die Reaktionszeit ist die Zeit, die benötigt wird, um auf einen Sicherheitsvorfall zu reagieren und ihn zu beheben.
  • Mit der Scan-Häufigkeit wird die Häufigkeit der Überprüfungen auf Eindringlinge oder andere böswillige Handlungen gemessen.
  • Unter dem technischen Schuldenverhältnis versteht man die Anzahl der Software- oder Infrastruktur-Updates oder -änderungen, die verzögert werden, wodurch die Arbeit auf einen späteren Zeitpunkt verschoben wird und eine Schuld entsteht, die schließlich von Entwicklern oder IT-Mitarbeitern beglichen werden muss.

Geschwindigkeitsmetriken

Geschwindkeitsmetriken zeigen die Geschwindigkeit an, mit der die Arbeit erledigt wird. Faktoren wie MTTR und andere Mean-Time-Metriken können mit der Geschwindigkeit in Beziehung gesetzt werden. Die Geschwindigkeit ist ein indirektes Maß für die Effizienz und ist vor allem für Unternehmensleiter wichtig. Zu den anderen Geschwindigkeitsmetriken für Infrastruktur und Entwicklung gehören die folgenden:

  • Das Änderungsvolumen ist die Anzahl der in einer bestimmten Zeit durchgeführten Änderungen, auch bekannt als Änderungsrate. Das kann auf Änderungen an der Infrastruktur hindeuten, wie zum Beispiel Konfigurationsänderungen, wird aber meist für Änderungen am Code verwendet.
  • Die Erledigungsrate ist die Anzahl der Tickets – oder Probleme –, die in einer bestimmten Zeit bearbeitet und gelöst wurden.
  • Die Anzahl der Änderungsanfragen oder Hilfe-/Problemtickets wird gezählt. Änderungen können sich auf das Personal oder die Infrastruktur beziehen, zum Beispiel auf das Onboarding oder Offboarding eines Mitarbeiters, oder auf Fehleranfragen von Softwarebenutzern.
  • Die Zeit, die benötigt wird, um einen Entwicklungszyklus oder eine Iteration abzuschließen, nennt man Zykluszeit.
  • Die Rate oder der Prozentsatz der getesteten Builds, die in der Produktion eingesetzt werden, ist die Bereitstellungshäufigkeit.
  • Die Lösungszeit ist die Zeit, die man braucht, um ein Problem oder ein Helpdesk-Ticket zu lösen.
  • Die Reaktionszeit beschreibt die Zeit, die benötigt wird, um ein Problem, eine Änderung oder ein Help-Ticket zu lösen.

Wertmetriken

Wertmetriken werden häufig aus Kosten-, Umsatz-, Geschwindigkeits- und anderen verfügbaren Daten extrapoliert, um Hinweise auf den Geschäftswert und die Ergebnisse zu liefern. Wertmetriken sind in der Regel für Unternehmensleiter und Stakeholder am wichtigsten. Zu den üblichen Wertmetriken gehören die folgenden:

  • Die Korrelation von Kostendaten mit anderen Leistungs-, Qualitäts- und Geschwindigkeitsmetriken kann Kostendaten – und vergleichbare Daten zur Kosteneinsparung – liefern. Gängige Kostenvarianten sind zum Beispiel Kosten pro Benutzer, Kosten pro Ticket oder Kosten pro Anlage, wie beispielsweise die Kosten für den Betrieb eines Servers.
  • Die Korrelation von UX-Kennzahlen mit anderen Geschäftsdaten, wie zum Beispiel Wiederholungsverkäufe oder durchschnittliche Ausgaben, kann Führungskräften dabei helfen, die allgemeine Zufriedenheit der Kunden und ihre Bereitschaft, Geschäfte zu tätigen, zu beurteilen.
  • Die Kundennutzung ist eine Kennzahl, die ein breites Spektrum möglicher Metriken aufzeigen kann, zum Beispiel die auf der Website verbrachte Zeit, die Nutzung eines Dienstes oder die Anzahl der wiederkehrenden Besuche innerhalb eines bestimmten Zeitraums.
  • Die Vorlaufzeit wird für die Implementierung, Bereitstellung oder Auslieferung benötigt.
  • Opportunitätskosten sind der geschätzte Wert einer verlorenen Gelegenheit im Vergleich zu einer genutzten Gelegenheit.
  • Die Kapitalrendite (ROI) ist die Höhe der Einnahmen oder des Gewinns, die durch eine Investition erzielt werden.
  • Die Zeit bis zur Markteinführung ist die Zeit, bis ein Konzept zum Produkt oder ein Produkt oder eine Dienstleistung auf den Markt gebracht ist.

Wenn Sie mehr über das IT-Monitoring erfahren möchten, lesen Sie unseren Text Best Practices und Tools für das IT-Monitoring.

Erfahren Sie mehr über Data-Center-Betrieb

ComputerWeekly.de
Close