alphaspirit - stock.adobe.com

Einstieg in die Überwachung mit Schwellenwerten

IT-Überwachung muss nicht schwer einzurichten und zu nutzen sein. In diesem Artikel erklären wir, wie man dafür Schwellenwerte und Dashboards einstellt sowie Reaktionen eskaliert.

Durch die Überwachung von Metriken können IT-Teams ihre Services optimieren und sicherer gestalten. Überwachungsplattformen erleichtern ihnen dies durch zahlreiche Anpassungsmöglichkeiten für die verschiedensten Unternehmensanforderungen.

Um sie optimal zu nutzen, sollten sich IT-Abteilungen grundlegende Gedanken zu ihren Bedürfnissen und ihrer Architektur machen.

Aktive Überwachung ist sinnvoll – doch je passiver die Rolle der Mitarbeiter bei der Überwachung, desto besser. Anhand von Schwellenwerten lässt sich ein Teil der Überwachung automatisieren. Sobald Administratoren den normalen Zustand ihres Systems – oder die grundlegenden Bedingungen für einen reibungslosen Betrieb – festgelegt haben, können sie Schwellenwerte für Leistungsindikatoren des Systems konfigurieren. Diese können Folgendes umfassen:

  • Prozessaktivität
  • Benutzeraktivität
  • CPU-Last
  • Speicherauslastung
  • Festplattenausnutzung
  • Inaktivität
  • Fehler und Fehlerprotokollierung
  • Login-Aktivität

Diese Aufzählung zeigt, dass Schwellenwerte nicht nur bei der Überwachung von Leistung hilfreich sind. Administratoren können mit ihnen auch Zugänge regulieren und somit nicht nur sehen, wie gut die Dienste funktionieren, sondern auch, wer sie wie viel nutzt. Dafür müssen sie für die oben genannten Werte Regelsätze schreiben. Glücklicherweise ist das Definieren von Schwellenwerten unkompliziert:

  • Erst definiert man, ob die Regel für Schwellenwerte (Metriken aus den Ressourcen) oder Ereignisse (Fehler und Anmeldungen) gelten sollen. Das Überwachungsinstrument wird Benachrichtigungen auslösen, wenn diese Schwellenwerte überschritten werden.
  • Dann gruppiert man die Regeln in Regelsätze, basierend auf Kategorisierungen und gerätespezifischen Einsätzen.
  • Dann werden die Sets an bestimmte Geräte zugewiesen.
  • Schließlich aktualisiert man die Agenten, um die Regelsätze zu aktivieren.

Wer Benachrichtigungen eingestellt hat, sollte sich zudem entscheiden, wie er diese empfangen möchte. Die beiden beliebtesten Varianten dafür sind Benachrichtigungen über Email oder das Simple Network Management Protocol (SNMP). Bei der letzteren Methode, die man in den meisten Netzwerkmanagement-Tools einstellen kann, werden interne Notfallmeldungen von betroffenen Geräten verschickt, um sicherzustellen, dass das System – und die Administratoren – im Bilde sind.

Warnungen und Dashboards

Schwellenwerte für die Überwachung sind nützlich, um ungewöhnliche Spitzen oder Einbrüche in der Aktivität zu erkennen. Warnmeldungen teilen Administratoren mit, wenn ihre Systeme sich nicht automatisch wiederherstellen können. Ob eine Warnung sinnvoll ist, hängt von zwei Fragen ab: erfordert das Ereignis menschliches Eingreifen und: ist es relevant? Zum Beispiel sollten sie nur Personen erreichen, die für das betroffene System verantwortlich sind und das Problem lösen können. Außerdem muss das Problem schwer genug sein, um die Benachrichtigungen zu rechtfertigen; andernfalls spammen sie das DevOps-Team zu.

Während die Überschreitung eines Schwellenwerts anzeigt, dass ein Problem auftreten könnte, melden Warnungen, dass eines da ist. Der Schweregrad variiert jedoch. Es ist eine gängige Praxis, Warnungen Prioritäten zuzuweisen. Ausfälle, die von Benutzern verursacht werden, erhalten in der Regel Vorrang vor internen Technikproblemen. Für das Beheben größerer Vorfälle benötigt das Team möglicherweise mehr Mitarbeiter, als für kleinere und auch das sollte sich in den Warnungen widerspiegeln.

Das Dashboard ist das Gehirn des Systems. Hier können Admins die Leistung im Auge behalten und sie erhalten eine Visualisierung ihrer wichtigen Metriken wie Traffic, Ressourcenverbrauch und Nutzungsmuster.

Das Dashboard ist das Gehirn des Systems. Hier können Admins die Leistung im Auge behalten und sie erhalten eine Visualisierung ihrer wichtigen Metriken wie Traffic, Ressourcen-Verbrauch und Nutzungsmuster.

Manchmal kann es sinnvoll sein, die Überwachung auf Anwendungsebene aufzuschlüsseln. Hierfür eignen sich besonders Microservice-Architekturen, die mit Kubernetes funktionieren. Hier lassen sich verschiedene Dashboards konfigurieren, um beide Ebenen der Umgebung zu untersuchen.

Klein anfangen: Anwendungsüberwachung

Die Anwendungsüberwachung ist der granularste Ansatz, da sich hier neue Funktionen, Fehlerbehebungen und Sicherheits-Updates schnell anwenden lassen. An dieser Stelle kommt CI/CD (Kontinuierliche Integration, kontinuierliche Auslieferung) ins Spiel. Bei diesem Ansatz unterliegen Anwendung laufend Änderungen und die Informationen aus den Dashboards helfen dabei.

Beliebte Tools wie Jaeger und OpenCensus bieten zahlreiche Funktionen, die diese Strategie unterstützen. Zu den wichtigsten Funktionen für die Anwendungsüberwachung gehören:

  • Rückverfolgung und Analyse von Antwortzeiten
  • Integration in Service-Meshes und Cloud- Ressourcen
  • Host-Datenprüfung
  • Export
  • Kopplung mit Plattformen von Drittanbietern

Überwachen der gesamten DevOps-Umgebung

Wer mehrere Container oder Netzwerksysteme gleichzeitig verwaltet, benötigt ein vielseitiges, umfangreiches Dashboard. Es ist nicht einfach, alle Aspekte eines Ökosystems mit vielen Services effektiv zu überblicken. Bei der Plattformüberwachung gibt es eine Menge verschiedener Informationen zu verarbeiten, und es kann schwierig sein, all diese Daten manuell zusammenhängend zu organisieren.

Die zu analysierten Daten müssen erst einmal ins System eingelesen werden. Auch hierfür gibt es spezielle Überwachungssoftware. Prometheus, beispielsweise, sammelt relevante Informationen von den Knoten und containerisierten Anwendungen, zieht diese Metriken in das Dashboard und gibt sie in lesbaren Blöcken an. Prometheus ist besonders nützlich, um auf der Knotenebene Fehler zu diagnostizieren.

Microservices laufen auf verteilten Systemen. Ressourcen werden bereitgestellt, oft über Server hinweg, und dann von den Clients (Benutzern) abgefragt. Da der Ressourcenverbrauch von der Zahl und Größe der Anfragen abhängt, kann es sinnvoll sein, ein leicht skalierbares Werkzeug zu wählen. Grafana bietet zum Beispiel eine panelgesteuerte Beobachtungsumgebung. DevOps-Teams können diese Panels gemeinsam nutzen und die Systemleistung zu bestimmten Zeitpunkten abrufen. Dies ist hilfreich, um Antwortzeit, Volumen und Netzwerkverkehr zu verfolgen. Hier sind einige andere Dashboard-Visualisierungen, die in Frage kommen:

  • Liniendiagramme
  • Heatmaps
  • Skalen
  • Flammendiagramme

Open-Source-Werkzeuge haben den Vorteil, dass sie sich gut mit anderen Werkzeugen kombinieren lassen und Add-on-freundlich sind. Das erweist sich als Vorteil, wenn das Ökosystem wächst oder sich die Prioritäten ändern.

Sie sind in hohem Maße anpassbar und verfügen oft über eine selbsterklärende Konfiguration. Außerdem sind sie skalierbar. Das spart den Umstieg auf andere Tools, wenn das System wächst und sich entwickelt.

Erfahren Sie mehr über Cloud Computing