relif - stock.adobe.com

Wie Sie eine IT-Monitoring-Strategie aufbauen

Mithilfe der richtigen IT-Monitoring-Strategien überwachen Sie Ihre Infrastruktur und können so Leistungsausfall vorbeugen und die Effizienz steigern.

Das IT-Monitoring ist ein wichtiger Bestandteil des laufenden IT-Betriebs und sollte gut durchdacht sein. Entscheidend dafür ist eine nützliche IT-Monitoring-Strategie, um Schwachstellen in Ihrer Infrastruktur zu aufzudecken. Dieser Beitrag gibt Ihnen einen Überblick darüber, warum ein strategisches Vorgehen überhaupt sinnvoll ist und wie Sie Ihre eigene IT-Monitoring-Strategie aufbauen können.

Was ist eine IT-Monitoring-Strategie?

Vereinfacht ausgedrückt, stellt eine IT-Monitoring-Strategie den Plan des Unternehmens für die Verwaltung des Zustands, der Leistung und der Verfügbarkeit von Anwendungen und Infrastruktur dar. Eine Monitoring-Strategie definiert, warum eine Überwachung notwendig ist, was überwacht und wie es überwacht werden muss. Eine IT-Monitoring-Strategie umfasst vier wesentliche Ebenen:

1. Die Ziele: Das ist das Warum des IT-Monitorings. Überwachung um ihrer selbst willen ist eine Verschwendung von wichtigen Ressourcen. Eine IT-Überwachungsstrategie sollte auf einem sinnvollen oder greifbaren Geschäftszweck aufbauen. So kann die Überwachung beispielsweise erforderlich sein, um die Anwendungsverfügbarkeit zu verbessern, eine zufriedenstellende Benutzeroberfläche zu gewährleisten oder den Umsatz pro Transaktion zu messen.

2. Metriken und KPIs: Das ist das Was der IT-Überwachung. Geschäfts- und IT-Führungskräfte können aus einem breiten Spektrum von Metriken und KPIs auswählen, die dem Unternehmen helfen, seine Ziele zu erreichen. Metriken und KPIs können direkt gemessen oder indirekt berechnet werden, indem einfache Berechnungen auf der Grundlage anderer direkter Messungen durchgeführt werden.

3. Tools: Das ist das Wie des IT-Monitorings. Beschaffen oder entwickeln Sie Software-Tools, die Metriken und KPIs erfassen, speichern, verarbeiten und an IT- und Unternehmensleiter weiterleiten können. Nicht alle Tools eignen sich für alle Metriken oder KPIs, und viele Tools bieten ein hohes Maß an Anpassungsmöglichkeiten, um eine breite Palette von Umgebungen und Anwendungsfällen abzudecken. Es ist wichtig, die richtigen Tools für die jeweilige Aufgabe auszuwählen.

4. Berichterstattung: Genauer gesagt, was mit den KPI- und Metrikdaten geschieht, sobald sie von den Tools erfasst wurden. Das ist ein wichtiger und oft übersehener Teil des Wie der IT-Überwachung. Metriken und KPIs sind kein Selbstzweck – einfach nur all diese Daten zu haben, bietet wenig Wert. Die Tools müssen Datenpunkte sammeln, verarbeiten und den IT- und Geschäftsleitern in einer klaren und umsetzbaren Form präsentieren. Obwohl die Berichterstellung eine Funktion des Tools ist, ist es wichtig, sich zu überlegen, wie diese Daten präsentiert werden. Einige Berichte können taktisch oder unmittelbar in Form von Warnungen sein, während andere Berichte eher strategisch oder trendbezogen in Form von Dashboard-Zusammenfassungen abgebildet werden.

Monitoring versus Observability

Die Entwicklung der IT hat eine Unterscheidung zwischen den Konzepten des Monitorings und der Observability eingeführt, und Administratoren werden höchstwahrscheinlich auf beide Begriffe stoßen, wenn sie eine IT-Monitoring-Strategie entwickeln und geeignete Tools auswählen.

Vereinfacht ausgedrückt, dient das Monitoring dazu, Daten zu sammeln und Rückschlüsse auf die Leistung einer Anwendung, eines Dienstes oder eines Geräts zu ziehen. So ist es beispielsweise ein Leichtes, die Bandbreitennutzung eines Netzwerksegments zu messen und diese als Prozentsatz der verfügbaren Bandbreite anzugeben.

Observability hat eine tiefere Bedeutung und umfasst das Sammeln, Verarbeiten und Berichten von Datenpunkten, die ein detailliertes und ganzheitliches Bild des Verhaltens der Umgebung liefern können – und potenzielle Probleme effektiver aufzeigen. Am Beispiel der Bandbreite könnte die Beobachtbarkeit ein detailliertes Bild der Workloads und Dienste liefern, die die verfügbare Bandbreite in diesem Netzwerksegment nutzen.

Für die Zwecke dieses Leitfadens sind die Anforderungen und Faktoren, die für das Monitoring und die Observability ausschlaggebend sind, identisch. Das Konzept einer IT-Monitoring-Strategie kann sowohl das Monitoring als auch die Observability einschließen.

Warum ist eine IT-Monitoring-Strategie so wichtig?

Eine IT-Monitoring-Strategie ist ein Eckpfeiler des IT-Betriebs. Da fast jedes moderne Unternehmen seine Einnahmen aus Anwendungen und Daten bezieht, die auf einer IT-Infrastruktur laufen, ist es für das Unternehmen wichtig zu wissen, dass diese Anwendungen, Datensätze und die zugrunde liegende Infrastruktur innerhalb akzeptabler Parameter funktionieren. Die IT-Überwachung ermöglicht es dem Unternehmen, Probleme, die sich auf die Kundenzufriedenheit und den Umsatz auswirken können, zu beheben oder sogar zu verhindern.

Eine IT-Monitoring-Strategie ist das Hightech-Äquivalent zur Qualitätskontrolle in einer herkömmlichen Fabrik.

Stellen Sie sich eine traditionelle Fabrik vor, die ein physisches Produkt für den Verkauf herstellt. Das Unternehmen führt eine Qualitätskontrolle durch, die die Eignung der Rohstoffe bewertet, die Funktionalität und Qualität der von den einzelnen Maschinen gefertigten Produkte prüft und das Endprodukt anhand der physischen Abmessungen, des funktionalen Verhaltens oder anderer Parameter validiert.

Die traditionelle Qualitätskontrolle ist dafür verantwortlich, dass das Unternehmen Qualitätsprodukte herstellt, die ordnungsgemäß funktionieren und optisch und funktionell für den Verkauf geeignet sind. Ohne Qualitätskontrolle hat das Unternehmen keine objektiven Mittel, um die Qualität oder Eignung der hergestellten Produkte zu messen. Qualitätsprodukte sorgen für zufriedenere Kunden und weniger Rücksendungen.

Das IT-Monitoring ist ihrem physischen Gegenstück sehr ähnlich. Es kann sicherstellen, dass die Anwendungen vorhanden sind und funktionieren, dass die zugehörigen Datenspeicher verfügbar und gültig sind und Server, Storage, Netzwerke und Dienste normal funktionieren -alles mit dem Ziel, den Benutzern Anwendungen und Dienste zur Verfügung zu stellen.

Wenn eine Anwendung abstürzt, schlecht funktioniert, nicht auf Daten zugreifen kann oder aus anderen Gründen nicht verfügbar ist, sinken die Kundenzufriedenheit und der Umsatz, es wird viel Zeit und Mühe für das Troubleshooting aufgewendet und das Unternehmen muss möglicherweise sogar mit rechtlichen Konsequenzen rechnen. Ohne IT-Monitoring hat das Unternehmen keine objektive Möglichkeit zu erfahren, wie gut die Anwendungen funktionieren, bis die Anfragen nach Troubleshooting eintrudeln. Das IT-Monitoring und die Strategien zur Umsetzung dieser Überwachung sind für das Unternehmen von entscheidender Bedeutung, um objektive Einblicke in seinen Betrieb und die Auswirkungen auf die Einnahmen zu erhalten. In vielen Fällen kann ein angemessen IT-Monitoring sogar potenzielle Probleme eindämmen, bevor sie sich für den Benutzer bemerkbar machen.

Wie man eine effektive IT-Monitoring-Strategie aufbaut

Eine gute IT-Monitoring-Strategie spart Geld, schont begrenzte IT-Ressourcen, beschleunigt die Fehlersuche und -behebung und reduziert die Belastung durch die Verwaltung vieler unterschiedlicher Tools. Es gibt mehrere Best Practices, auf denen ein Unternehmen aufbauen kann, um eine Gesamtstrategie zu entwickeln:

  • Reduzieren oder begrenzen Sie die Anzahl der Monitoring Tools: Streben Sie, wo immer es möglich ist, eine Monitoring-Umgebung mit einem einzigen Blickwinkel an. Das eignet sich gut für relativ homogene Unternehmen, die eine begrenzte Anzahl von Systemen, Architekturen, Arbeitsabläufen und Richtlinien verwenden. Ein Beispiel: Ein Unternehmen, das nur mit einem einzigen Public-Cloud-Anbieter zusammenarbeitet, könnte die nativen Überwachungs-Tools dieses Anbieters zusammen mit einem oder zwei Tools zur Unterstützung des lokalen Rechenzentrums verwenden. Bei heterogenen Unternehmen mit einer breiten Mischung aus Hardware, Architekturen und Workflow-Modellen ist das jedoch möglicherweise nicht praktikabel.
  • Verbinden Sie das IT-Monitoring mit den Geschäftsergebnissen: Es ist leicht, so viele Tools einzusetzen und so viele Daten zu sammeln, dass die IT-Abteilung viel Zeit und Ressourcen für die Überwachung von Verhaltensweisen und Parametern aufwendet, die keinen Einfluss auf das Geschäft haben. Wenn eine IT-Monitoring-Strategie mit einer klaren Perspektive auf die Geschäftsziele beginnt, können die nachfolgenden Entscheidungen über die Messgrößen – und die Tools zu ihrer Erfassung – viel bewusster und gezielter getroffen werden. Auf diese Weise werden Ergebnisse erzielt, die dem Unternehmen unmittelbar zugutekommen.
  • Berücksichtigen Sie den Monitoring-Ansatz oder -Schwerpunkt: Es gibt viele Ansätze für das Monitoring, die sich auf bestimmte Bereiche konzentrieren, zum Beispiel Anwendungen, Leistung, Infrastruktur, Sicherheit, Governance und Compliance. Jeder Ansatz verwendet unterschiedliche Metriken und KPIs. Es ist möglich, mehrere Ansätze gleichzeitig zu verfolgen, aber das erfordert zusätzliche Tools und komplexere Berichte.
  • Entwickeln Sie eine Überwachung, die eng mit der Anwendungsarchitektur verknüpft ist: Erstellen Sie beispielsweise eine Benutzeroberfläche für Anwendungsdaten, die Microservices, Public Cloud, serverlose und verwaltete Dienste nutzen. Dieser Ansatz ist für neuere Anwendungsarchitekturen gedacht, die von Grund auf entworfen und unterstützt werden können; für ältere oder heterogene Architekturen eignet er sich nicht.
  • Entwickeln Sie eine eigene Monitoring-Umgebung: Ein gängiges Beispiel ist die Verwendung von Tools zur Protokollaggregation und -analyse, um ein zentrales Repository für Betriebsdaten zu erstellen und Warnungen zu analysieren, zu melden und sogar vorherzusagen. Bei dieser Strategie können mehrere Monitoring Tools zusammen mit Datenbank-, Datenintegrations-, Monitoring und Visualisierungs-Tools integriert werden, um eine maßgeschneiderte Überwachungsressource zu schaffen. Seien Sie sich darüber im Klaren, dass der DIY-Ansatz zeitaufwändig und teuer in der Erstellung und Wartung sein kann.
  • Nutzen Sie die gesammelten Daten: Daten ohne Zweck sind nutzlos. Überlegen Sie, wie jede Kennzahl oder jeder KPI verwendet werden soll. Wenn eine Kennzahl oder ein KPI nicht für einen konkreten Zweck benötigt wird, hat es keinen Sinn, diese Daten zu erfassen und zu speichern. Überlegen Sie, wie die Daten verarbeitet, gemeldet, aufbewahrt und schließlich gemäß den Datenaufbewahrungsrichtlinien des Unternehmens vernichtet werden sollen. Wenn Monitoring-Daten nicht in diesen Richtlinien enthalten sind, sollten sie es sein. Die Daten sollten aussagekräftige Warnmeldungen und Berichte liefern.
  • Führen Sie eine autonome Betriebsplattform ein: Tools wie Moogsoft, Datameer, VictorOps, Opsgenie und AlertOps nutzen Datenintegration und ML, um ein einheitliches Überwachungssystem mit einem wachsenden Maß an Intelligenz und Autonomie zu schaffen, das die Berichterstattung über IT-Vorfälle und die Reaktion darauf beschleunigt.

Sobald die Strategie klar ist, können Unternehmen detailliertere Entscheidungen über Implementierungsansätze und Tools treffen. Es gibt eine Vielzahl von Optionen für diesen Bereich.

Agentenbasiertes versus agentenloses Monitoring

Das ist der Prozess der Erfassung, Verarbeitung und Meldung von Daten. Doch welche Daten wie gesammelt werden, kann sehr unterschiedlich sein. Ein wirklich effektives Monitoring Tool sieht jedes Zielhardware- oder Softwareobjekt und kann Details darüber abfragen. In den meisten Fällen erfordert das die Installation von Agenten auf jedem Objekt, das entdeckt und überwacht werden soll. Obwohl sie äußerst detaillierte Monitoring-Daten liefern, müssen Agenten gepatcht, aktualisiert und anderweitig verwaltet werden. Außerdem erfordern sie Verarbeitungs- und Netzwerk-Overhead, was die Leistung des Objekts, auf dem der Agent arbeitet, beeinträchtigen kann. Der Einsatz von Agenten entspricht einer uralten wissenschaftlichen Binsenweisheit: Die Beobachtung einer Sache verändert das Verhalten dieser Sache.

Das agentenlose Monitoring verzichtet auf den Einsatz von Agenten und sammelt stattdessen Daten über standardisierte Kommunikationsprotokolle wie die intelligente Plattformverwaltungsschnittstelle, SNMP oder Dienste interoperable APIs. Das agentenlose Monitoring vermeidet die Nachteile von Agenten, aber die gesammelten Daten sind in der Regel in Menge und Detailtiefe begrenzt. Viele Monitoring-Produkte unterstützen die agenten- und agentenlose Datenerfassung.

Reaktives Monitoring versus proaktives Monitoring

Das ist ein weiterer Ausdruck von Echtzeit- versus Trend-Monitoring. Die Erfassung von Echtzeitstatistiken und -daten (zum Beispiel Prozessor- und Memory-Auslastung) und die Erstellung von Berichten über den Gesamtzustand und die Verfügbarkeit von Diensten ist ein bewährter Ansatz für die Alarmierung und das Troubleshooting in einer 24/7-Rechenzentrumsumgebung. Bei diesem Ansatz reagierten die Administratoren auf ein Ereignis, sobald es eintritt.

Beim proaktiven Monitoring geht es darum, vorausschauend zu handeln und Bewertungen und Empfehlungen abzugeben, die das Auftreten von Problemen verhindern können. Wenn ein Monitoring Tool beispielsweise darauf hinweist, dass das Memory nicht freigegeben wurde, als eine VM zerstört wurde, kann es helfen, ein Memory-Leck in der VM-Anwendung zu verhindern, bevor der betroffene Server kein Memory mehr hat und abstürzt. Das proaktive Monitoring hängt von reaktiven Tools ab, um Daten zu sammeln und Trends zu erstellen, die das proaktive Tool analysieren kann, und wird zunehmend durch ML- und KI-Technologien ergänzt, um abnormes Verhalten und wiederkehrende Ereignisse zu erkennen. Wenn ML beispielsweise einen wiederkehrenden Anstieg der Anwendungsnachfrage oder des Datenverkehrs feststellt, kann es die Ressourcen für die Arbeitslast automatisch erhöhen, um die Leistung und die Benutzerfreundlichkeit ohne menschliches Eingreifen zu erhalten.

Verteilte Anwendungen

Anwendungen, die traditionell im lokalen Rechenzentrum ausgeführt werden, sind zunehmend über mehrere Rechenzentrumsinfrastrukturmodelle verteilt, zum Beispiel über entfernte Rechenzentren und Hybrid-Cloud- und Multi-Cloud-Umgebungen. So kann eine Anwendung beispielsweise mehrere Instanzen in der Public Cloud ausführen, wo eine hohe Skalierbarkeit gegeben ist, aber auf andere Anwendungen oder Daten angewiesen sein, die noch im lokalen Rechenzentrum gehostet werden. Das führt zu einer enormen Monitoring-Komplexität, da jede Komponente der Gesamtanwendung überwacht werden muss, um sicherzustellen, dass sie ordnungsgemäß funktioniert.

Eine wichtige Entscheidung in solch komplexen Umgebungen ist die Zentralisierung oder Dezentralisierung. Bei der Zentralisierung werden die Monitoring-Daten von lokalen und Cloud-Plattformen in einem einzigen Tool gesammelt, um eine einzige, einheitliche Ansicht zu präsentieren. Das ist am besten geeignet, um ein durchgängiges Monitoring über Cloud- und lokale Infrastrukturen hinweg zu gewährleisten, auch wenn das eine sorgfältige Integration erfordert. Im Gegensatz dazu setzt die Dezentralisierung die Nutzung von Cloud- und lokalen Tools ohne Koordination oder gegenseitige Abhängigkeit fort. Das ist einfacher zu verwalten und zu pflegen, da es nur wenige Abhängigkeiten gibt, aber die Organisation und Analyse mehrerer Monitoring Tools und Datenquellen kann eine Herausforderung darstellen.

Monitoring und Virtualisierung

Die Virtualisierung ist ein Grundpfeiler von Cloud- und lokalen Rechenzentren und ist für eine erheblich verbesserte Ressourcennutzung und Vielseitigkeit durch softwaredefinierte Technologien wie softwaredefinierte Netzwerke verantwortlich. Das Monitoring muss das Vorhandensein von Virtualisierungsschichten berücksichtigen, ob Hypervisoren oder Container-Engines, um die zugrunde liegende physische Schicht so weit wie möglich zu erkennen. Moderne Monitoring Tools sind in der Regel virtualisierungsfähig, aber es ist wichtig, das Verhalten der einzelnen Tools zu überprüfen. Container sind eine Variante der Virtualisierungstechnologie, haben aber denselben Bedarf an Monitoring und Verwaltung.

Bei der Netzwerkvirtualisierung wird beispielsweise ein physisches Netzwerk in viele logische Netzwerke unterteilt, was jedoch Leistungs- und Geräteprobleme vor herkömmlichen Monitoring Tools verbergen kann. Eine ordnungsgemäße Überwachung auf Netzwerkebene kann das Monitoring einzelner VMs und Hypervisoren oder Container und Container-Engines erfordern, um ein vollständiges Leistungsbild zu gewährleisten.

Die Rolle von ML und KI

Das Monitoring der Unternehmens-IT umfasst eine riesige Menge an Informationen. Es gibt Echtzeitdaten und Streaming-Telemetrie zum Monitoring aktueller Ereignisse und zur Verfolgung von Trends im Zeitverlauf sowie zahllose detaillierte Protokolle, die von Servern, Geräten, Betriebssystemen und Anwendungen generiert werden und nach Ereignisauslösern und Ursachen sortiert und analysiert werden müssen. Viele Monitoring-Alarme und -Warnungen sind Fehlalarme oder haben keine Auswirkungen auf die Leistung oder Stabilität. Für Administratoren kann es entmutigend sein, aussagekräftige Ereignisse zu identifizieren und von belanglosen Ereignissen zu trennen.

Denken Sie an das Problem der Erkennung von Anomalien. Gängige Schwellenwerte können eine Wartung auslösen, aber der Mensch entscheidet, ob die Warnung wichtig ist. Monitoring Tools enthalten zunehmend KI- und ML-Funktionen, die mathematische Verfahren und Trends anwenden, um Ereignisse als statistisch signifikant zu kennzeichnen und Administratoren dabei zu helfen, das Signal vom Rauschen zu trennen. Die KI legt automatisch Schwellenwerte fest, um Fehlalarme zu reduzieren und die wichtigsten Vorfälle zu identifizieren und zu priorisieren.

ML hilft auch bei Erkennung von Anomalien in der Protokollanalyse, einer Monitoring-Methode, die besonders effektiv für die Ursachenanalyse und das Troubleshooting ist. Hier nutzt ML die Regressionsanalyse und Ereigniskorrelation, um potenzielle Anomalien zu erkennen und künftige Ereignisse vorherzusagen, und kann sogar saisonale oder tägliche Trendschwankungen berücksichtigen, um Fehlalarme zu reduzieren.

Ein Beispiel für den Einsatz von ML und KI beim Monitoring sind die riesigen Mengen an Netzwerkverkehr, die ein Unternehmen empfängt. Aus dieser Menge an Datenverkehr einen versuchten Hack oder einen anderen Angriff zu erkennen, kann eine große Herausforderung sein. Anomalie-Erkennungstechniken können jedoch einen Blick auf den Inhalt des Datenverkehrs, das Verhalten und die Protokollberichte werfen, um wahrscheinlich Angriffe zu erkennen und proaktive Maßnahmen zu ergreifen, um die Aktivitäten zu blockieren, während sie untersucht wird.

Auch wenn ML starke Vorteile für das IT-Monitoring bietet, sind die Vorteile nicht automatisch gegeben. Jedes Unternehmen ist anders, daher gibt es keinen einheitlichen Algorithmus oder ein Modell für ML. Das bedeutet, dass IT-Administratoren und Softwareentwickler ein Modell erstellen müssen, das ML für das Unternehmen vorantreibt, und zwar unter Verwendung einer Vielzahl von Metriken wie Netzwerkverkehrsvolumen, Quell- und Ziel-IP-Adresse, Memory, Storage, Anwendungslatenz, Replikationslatenz und Länge der Nachrichtenwarteschlange. Eine praktische ML-Übung könnte Apache Mesos und den K-means-Clustering-Algorithmus für die Daten-Clustering und -analyse enthalten.

Wenn Sie mehr über das IT-Monitoring erfahren wollen, lesen Sie unseren Text Die wichtigsten Metriken für das IT-Monitoring kennen.

Erfahren Sie mehr über Data-Center-Betrieb