tippapatt - stock.adobe.com

Tipp

Best Practices und Tools für das IT-Monitoring

Damit Ihr IT-Monitoring fehlerfrei funktioniert, gibt es verschiedene Best Practices. Unterschiedliche Monitoring-Tools helfen Ihnen bei der Überwachung Ihrer Infrastruktur.

von

Stephen J. Bigelow, Senior Technology Editor

Zuletzt aktualisiert:12 Juli 2024

Nachdem Sie für Ihre IT-Infrastruktur eine IT-Monitoring-Strategie erarbeitet haben und ausgewählt haben, welche Metriken Sie im Blick behalten wollen, müssen Sie das IT-Monitoring erfolgreich beibehalten nutzen. Deshalb stellen wir Ihnen Best Practices vor, um das beste Ergebnis mit Ihrem IT-Monitoring zu erreichen.

Ebenso entscheidend sind die Tools, die Sie nutzen. Denn je nach Ihren Anforderungen an die Überwachung eignen sich einige Produkte mehr als andere. Wir zeigen Ihnen, auf welche Kriterien Sie bei der Auswahl achten sollten.

Best Practices für das IT-Monitoring

Das IT-Monitoring ist ein dynamischer Prozess, der regelmäßige Aufmerksamkeit und Unterstützung bei der Datenüberwachung, bei Schwellenwerten und Warnungen, bei der Einrichtung von Visualisierungen oder Dashboards und bei der Integration mit anderen Tools oder Workflows, wie CI/CD und AIOps, erfordert. Machine Learning (ML) und KI können dazu beitragen, einige der anfallenden Routineaufgaben zu erleichtern, aber regelmäßige Aufmerksamkeit ist unerlässlich, um die automatisierten Workflows zu pflegen und das sich entwickelnde ML-Modell zu validieren.

Bedenken Sie die einfache Bedeutung von Schwellenwerten beim IT-Monitoring. Beim Monitoring können statische und dynamische Schwellenwerte verwendet werden. Statische Schwellenwerte werden in der Regel auf der Grundlage von Worst-Case-Situationen festgelegt, zum Beispiel maximale Prozessor- oder Memory-Nutzungsprozentsätze, und können in der Regel anhand von Standardschwellenwerten angepasst werden, die im Monitoring Tool enthalten sind. Ein statischer Schwellenwert wird selten geändert und berücksichtigt keine Schwankungen in der Umgebung. Er gilt für jede Instanz, so dass kritische Probleme leicht über- oder unterbewertet werden können, was dazu führt, dass Probleme übersehen werden oder Fehlalarme auftreten.

Im Vergleich dazu verwenden dynamische Schwellenwerte im Allgemeinen ML, um zu bestimmen, was normal ist, und generieren nur dann Warnungen, wenn der festgelegte Schwellenwert überschritten wird. Dynamische Schwellenwerte können saisonale oder zyklische Trends berücksichtigen und echte Ereignisse besser von Fehlalarmen unterscheiden. Schwellenwerte werden automatisch auf der Grundlage zyklischer Trends und neuer Eingaben angepasst. Dynamische Schwellenwerte sind unvollkommen, und sie können unterbrochen werden, wenn Aktivitäten außerhalb der etablierten Muster auftreten. Daher erfordern dynamische Schwellenwerte immer noch ein gewisses Maß an menschlicher Aufsicht, um sicherzustellen, dass ML und Automatisierung in einer akzeptablen Weise ablaufen.

Insgesamt lassen sich die Best Practices für das Monitoring und Reaktion der Unternehmens-IT in eine Reihe praktischer Richtlinien unterteilen.

1. Konzentrieren Sie sich auf das System und die Anwendungen

Es gibt unzählige Metriken, die gesammelt und analysiert werden können, aber die einzigen Metriken, um die sich die meisten IT-Administratoren kümmern sollten, sind die Metriken, die sich auf die System-, Infrastruktur- und Anwendungsleistung beziehen. Alles andere ist irrelevant oder kann von der IT-Abteilung nicht ohne Weiteres berücksichtigt werden. So hat beispielsweise eine Kennzahl wie Kosten pro Transaktion für IT-Teams nur einen geringen Wert, während sie für Unternehmensleiter von entscheidender Bedeutung sein kann. Umgekehrt ist eine Kennzahl wie die Transaktionslatenz für die Geschäftsleitung vielleicht bedeutungslos, kann aber auch für eine angemessene Leistung und die Einhaltung von SLAs, für die die IT-Teams direkt verantwortlich sind, entscheidend sein.

2. Konfigurieren Sie die Warnungen sorgfältig

Schwellenwerte und Warnmeldungen sind in der Regel die erste Verteidigungslinie, wenn Probleme auftreten. Leiten Sie Warnungen an die am besten geeigneten Teammitglieder weiter und sorgen Sie dafür, dass diese Mitarbeiter zur Verantwortung gezogen werden. Im Idealfall sollte die IT-Abteilung von einem Problem erfahren, bevor ein Vorgesetzter – oder ein Kunde – davon erfährt. Integrieren Sie Warnmeldungen nach Möglichkeit in ein automatisiertes Ticketing- oder Incident-System, um die Zuweisung und Behebung von Problemen zu beschleunigen.

3. Seien Sie bei Warnmeldungen und Berichten selektiv

Überfordern Sie das IT-Personal nicht mit unnötigen oder informativen Warnmeldungen. Konfigurieren Sie nur Warnungen für Messgrößen, die sich direkt auf den IT-Betrieb beziehen, und deaktivieren Sie Warnungen für Messgrößen, auf die die IT-Mitarbeiter keinen Einfluss haben. Dadurch werden Lärm und Stress reduziert, und die Mitarbeiter können sich auf die wichtigsten Warnmeldungen konzentrieren.

4. Stimmen Sie Menschen auf Daten ab

Das Monitoring ist in der Regel eine Teamarbeit, bei der verschiedene Mitarbeiter unterschiedliche Daten sehen und auf diese reagieren. Beispielsweise müssen die Workload-Verantwortlichen möglicherweise Daten und Berichte zu Anwendungstransaktionen oder Umsätzen sehen; IT-Mitarbeiter möchten Infrastrukturmetriken und Kapazitäts-/Leistungsberichte sehen; Helpdesk-Teams sind wahrscheinlich die erste Anlaufstelle für Warnmeldungen. Machen Sie sich klar, wer was sieht und wie die verantwortlichen Personen darauf reagieren werden.

5. Überprüfen und aktualisieren Sie die Monitoring-Pläne

IT-Monitoring-Strategien sind keine statischen Gebilde. Pläne werden oft in formellen Dokumenten kodifiziert und müssen regelmäßig aktualisiert werden, um mit den sich ändernden Geschäftsänderungen, neuen Tools und den sich entwickelnden gesetzlichen und Governance-Anforderungen Schritt zu halten. Überprüfen und aktualisieren Sie die IT-Monitoring-Strategie regelmäßig und stellen Sie sicher, dass der Plan allen Anforderungen gerecht wird.

6. Berücksichtigen Sie die Anforderungen an die Datenaufbewahrung

Bei dem IT-Monitoring kann eine beträchtliche Menge an Daten in Form von Protokolldateien und Metrikdatenströmen anfallen. Alle diese Daten sind Geschäftsdaten und fallen unter die Richtlinien und Praktiken der Datensicherheit, -aufbewahrung und -vernichtung. Berücksichtigen Sie die spezifischen Aufbewahrungsanforderungen für Metriken, KPIs, Protokolle und Warnmeldungen und richten Sie entsprechende Workflows für das Data Lifecycle Management von Monitoring-Daten ein. Im Allgemeinen ist die Aufbewahrungszeit für Monitoring-Daten viel kürzer als für typische Geschäftsdaten, aber die ordnungsgemäße Verwaltung von Monitoring-Daten verhindert Storage-Verschwendung und stärkt die Unternehmensführung.

7. Korrelieren Sie Daten, wo möglich

Suchen Sie nach Möglichkeiten, Daten aus verschiedenen, aber verwandten Metriken zu kombinieren oder zu korrelieren. Die Ermittlung von Korrelation kann dem Unternehmen helfen, Ursache-Wirkungs-Beziehungen zu finden, die die Beobachtbarkeit verbessern und Optimierungsmöglichkeiten aufzeigen. Wenn ein Unternehmen beispielsweise einen Anstieg des Netzwerkverkehrs für eine Anwendung feststellt und gleichzeitig Spitzen bei der Serververzögerung und eine Verschlechterung der Benutzerfreundlichkeit bemerkt, hat es die Grundlage für potenzielle Konfigurations- und Infrastrukturänderungen. Tools mit Analyse-, ML- und KI-Funktionen können oft die besten Ergebnisse bei der Datenanalyse liefern.

IT-Monitoring-Tools

IT-Administratoren können nur handeln, wenn sie etwas sehen und was sie sehen, wird durch Tools ermöglicht. Unternehmen können eine Vielzahl von Tools einsetzen, um Infrastruktur und Dienste zu überwachen und zu verwalten, doch haben diese Tools verschiedene Einschränkungen in Bezug auf Umfang, Erkennung, Interoperabilität und Leistungsfähigkeit.

Ein IT-Team muss sich über die Kriterien im Klaren sein: Welche Probleme sollen durch den Einsatz von Tools gelöst werden? Eine Firma, die sich beispielsweise mit der Netzwerkleistung oder der Analyse des Datenverkehrs befasst, benötigt ein Netzwerk-Monitoring-Tool; ein Werkzeug, das für das Server-Monitoring gedacht ist, bietet vielleicht einige Einblicke in das Netzwerk, aber diese Daten sind wahrscheinlich nicht aussagekräftig genug, um nützlich zu sein.

Letztendlich steht ein IT-Team vor einer schwierigen Entscheidung: Entweder es setzt eine Suite oder ein Framework ein, das bis zu einem gewissen Grad alles kann, oder es verwendet Tools von verschiedenen Anbietern, die zwar detaillierte Informationen liefern, aber in einer zusammengewürfelten Anordnung, die schwer zu integrieren, zu erlernen und zu pflegen sein kann.

Diese schwierige Entscheidung wird durch die schiere Anzahl der verfügbaren Tools noch verschärft. Die Tools können von Systemanbietern, Drittanbietern oder SaaS- und anderen Cloud-Diensten stammen.

Beispiele für IT-Monitoring-Tools

Die folgende Liste ist nur einen Teil (in alphabetischer Reihenfolge) der anerkannten Angebote, die aus öffentlichen Untersuchungen und Berichten zusammengestellt wurden – es gibt unzählige andere Tools, die für fast jede Unternehmensgröße und jeden Bedarf geeignet sind:

Amazon CloudWatch
AppDynamics
BMC TrueSight Infrastructure Management
Broadcom DX Unified Infrastructure Management
Cisco CloudCenter
Datadog
Dynatrace
Google Clouds Betriebs-Suite
Grafana Cloud
Grafana Enterprise Stack
Hewlett Packard Enterprise (HPE) OpsRamp
IBM Cloud Monitoring
Kaseya VSA
ManageEngine Applications Manager
Nagios XI
Microsoft Azure Monitor
Microsoft System Center Operations Manager (SCOM)
NetApp Cloud Insights
New Relic
Oracle Application Performance Monitoring Cloud Service
SolarWinds Network Performance Monitor
SolarWinds Server and Application Monitor
Splunk Infrastructure Monitoring
Veeam ONE
VMware Aria Operations
Zabbix
Zenoss Cloud

Es ist wichtig, ein klares Verständnis der gewünschten Funktionen, Fähigkeiten und Kompatibilität zu entwickeln, bevor man dieses riesige Feld auf einige mögliche Kandidaten eingrenzt. An diesem Punkt sollte es möglich sein, die Kandidaten genauer zu prüfen und mehrere Proof-of-Concept-Projekte durchzuführen, um die Tools sowie die Leistung und Interoperabilität in der Unternehmensumgebung zu testen und zu validieren, bevor eine endgültige Auswahl für die Beschaffung und Bereitstellung getroffen wird.

Manchmal bieten neue und innovative Technologien leistungsstarke Möglichkeiten für das Monitoring, die Optimierung und das Troubleshooting. Ein Beispiel für diese Innovation ist das Aufkommen von Tools für die Protokollanalyse. Fast jedes System erzeugt Protokolldateien, die wertvolle Daten über Ereignisse, Änderungen und Fehler enthalten. Allerdings sind die Protokolle oft riesig, schwer zu analysieren und schwierig zu korrelieren, so dass es für Menschen fast unmöglich ist, einen echten Wert in den Protokollen zu finden.

Eine relativ neue Klassifizierung von Tools für die Protokollanalyse kann Erkenntnisse aus Protokollen über die gesamte Infrastruktur und die Anwendungen hinweg erkennen, zusammenfassen, analysieren und in Berichten zusammenfassen. Die jüngste Ergänzung der Protokollanalyse durch ML- und KI-Funktionen ermöglicht es diesen Tools, anormale Verhaltensweisen zu erkennen und sogar potenzielle Ereignisse oder Probleme vorherzusagen. Zusätzlich zu den Protokollen können Produkte wie Grafana oder Datadog auf große Mengen von Monitoring-Daten aus anderen Tools zugreifen und diese aggregieren, um ein umfassenderes Bild der Vorgänge in einer Umgebung zu liefern.

Unternehmen mit einem lokalen Rechenzentrum setzen in der Regel eine Form von Server-Monitoring-Tool ein, um den Zustand, die Ressourcen und die Leistung der einzelnen Server zu überwachen. Viele Tools bieten Funktionen für die Verwaltung von Servern und Anwendungen oder Diensten. Zu diesen Tools gehören Cacti, ManageEngine Applications Manager, Microsoft SCOM, Nagios, Opsview, SolarWinds Server and Application Monitor und Zabbix.

Die IT-Abteilung muss sich auch zwischen herstellereigenen und Drittanbieter-Monitoring-Tools entscheiden. Tools von Drittanbietern wie SolarWinds Virtualization Manager und Veeam One überwachen virtualisierte Ressourcen, wie zum Beispiel VMs, und können potenziell bessere Visualisierungen und Integrationen zu geringeren Kosten bieten als native Hypervisor-Angebote, wie zum Beispiel System Center 2022 von Microsoft oder VMware vRealize Operations 8.0 und höher.

Erweiterbarkeit und Interoperabilität sind bei der Auswahl eines IT-Monitoring-Tools von entscheidender Bedeutung. Plug-ins, Module, Konnektoren und andere Arten von softwarebasierten Schnittstellen ermöglichen es den Tools, zusätzliche Systeme und Dienste zu erkennen, zu konfigurieren, zu verwalten und Fehler zu beheben. Das Hinzufügen eines neuen Plug-ins kann viel einfacher und billiger sein als der Kauf eines neuen Tools. Ein Beispiel ist die Verwendung von Modulen zur Erweiterung eines Tools wie SolarWinds für zusätzliche IT-Betriebsaufgaben.

Interoperabilität ist entscheidend für den Aufbau eines breiteren Monitoring- und Automatisierungsrahmens, und einige Tools stellen sich dieser Herausforderung. Beispielsweise sammelt die Dynatrace AIOps Engine jetzt Metriken von der Kubernetes-API und dem Prometheus-Zeitserien-Monitoring-Tools für Kubernetes-Cluster. Im Idealfall verbessert eine solche Integration die Erkennung von ursächlichen Ereignissen in Kubernetes. Allgemeiner ausgedrückt: Die Auswirkungen auf die Integration und die IT-Automatisierung lassen starke Fortschritte bei der KI im Betrieb erwarten.

Die Fähigkeit, große Mengen an Infrastrukturdaten auf verschiedenen Ebenen zu verarbeiten und darzustellen, von Dashboards bis hin zu Diagrammen, stellt einen enormen Mehrwert für das Server- und System-Monitoring dar. Manchmal ist ein separates Visualisierungs-Tool am besten geeignet. Beispiele hierfür sind Kibana, eine Open-Source-Plattform für die Log-Analyse, die Log-Daten entdeckt, visualisiert und Dashboards darauf aufbaut, sowie Grafana, ein ähnliches Open-Source-Visualisierungs-Tool, das mit einer Vielzahl von Datenspeichern verwendet wird und Metriken unterstützt.

Alerting Dashboard von Grafana — Abbildung 1: So stellt Grafana ein Alerting Dashboard dar.

Die Verlagerung von Infrastrukturen und Anwendungen in die Cloud bedeutet, dass Unternehmen diese Ressourcen im Rahmen ihrer IT-Monitoring-Bemühungen verfolgen müssen. Public-Cloud-Anbieter haben ihre traditionell undurchsichtigen Infrastrukturen geöffnet, um das zu ermöglichen, und Service Provider bieten ihre eigenen Tools für das Cloud Monitoring an. Der früher als Google Stackdriver bekannte Dienst, der in das Google-Cloud-Console-Portfolio integriert wurde, überwacht die Google Cloud sowie Anwendungen und VMs, die auf der AWS Elastic Compute Cloud laufen; Microsoft Azure Monitor sammelt und analysiert Daten und Ressourcen aus der Azure-Cloud; und AWS-Benutzer haben Amazon CloudWatch. Weitere Optionen sind der Cloud-Service Oracle Application Performance Monitoring und Cisco CloudCenter sowie Tools wie Datadog für Cloud-Analysen und Monitoring und New Relic zum Monitoring von Webanwendungen.

Eine weitere wichtige Klasse von IT-Monitoring-Tools konzentriert sich auf Netzwerke und Sicherheit. Solche Tools können physische Geräte und Dienste wie Firewalls und Load Balancer umfassen. Sie überwachen die Netzwerkaktivität auf Verkehrsquellen, Muster und Leistung zwischen Servern, Systemen und Diensten.

Ein typisches Netzwerk-Monitoring-Tool – wie Zabbix, Nagios, Wireshark, Datadog oder SolarWinds‘ Network Performance Monitor – bietet eine automatische und konfigurierbare Problemwarnungen und Berichte. Die Benutzeroberfläche sollte leicht zu lesende Dashboards oder Diagramme enthalten und die Möglichkeit bieten, eine Netzwerktopologiekarte zu erstellen.

Virtualisierung und Anwendungsbewusstsein ermöglichen es dem Tool, fortschrittliche Technologien wie Netzwerkvirtualisierung und APM zu unterstützen. Beim Netzwerk-Monitoring können Agenten eingesetzt werden, aber es müssen nicht unbedingt Agenten für alle Geräte oder Anwendungen vorhanden sein. Diagramme und Berichte sollten idealerweise die Interoperabilität mit Datenvirtualisierung, Protokollanalyse und anderen Monitoring-Tools unterstützen.

Schließlich können Unternehmen eine Vielzahl von Anwendungs- und UX-Monitoring-Tools wie New Relic einsetzen, um die Anwendungsleistung und die Zufriedenheit der Benutzer sicherzustellen. Diese Tools sammeln Metriken zum Anwendungsverhalten, analysieren diese Daten, um Fehler und problematische Transaktionsarten zu identifizieren, und bieten detaillierte Warnmeldungen und Berichte, um Anwendungs- und Benutzermetriken zu veranschaulichen und SLA-Bewertungen hervorzuheben. Zu den anderen Anbietern im APM- und UX-Segment, die Produkte zur Unterstützung des Monitorings anbieten, gehören Datadog, Dynatrace, AppDynamics und Splunk.

Wenn Sie mehr über das IT-Monitoring erfahren möchten, lesen Sie unseren Text Welche verschiedenen Arten des IT-Monitoring gibt es?.