Wie man eine Performance-Baseline für Netzwerk-Monitoring festlegt
Die Festlegung einer Basisleistung ist wichtige Grundlage für das Netzwerk-Monitoring und dessen Auswertung.
Wozu braucht man eine Baseline für die Netzwerk-Performance?
Vereinfacht gesagt, ist die Netzwerk-Basisleistung (oder Baseline-Performance) ein Satz von Kennzahlen, der den normalen operativen Zustand eines Netzwerks wiedergibt. Netzwerk-Ingenieure verwenden sie, um einen Ausgangszustand für Vergleichszwecke zu definieren; Abweichungen können Probleme anzeigen.
Das Festlegen einer Baseline kann auch offenbaren, dass sich Anwendungs- und Netzwerk-Anforderungen der Kapazitätsgrenze nähern. So erhält das IT-Team Gelegenheit, rechtzeitig Upgrades einzuplanen. Orientiert sich die Baseline an vorhandenen Service Level Agreements (SLAs) für das Netzwerk, hilft dies dabei, innerhalb vorgegebener Kapazitätsparameter zu bleiben und Problembereiche zu identifizieren.
Die Herausforderung für Netzwerk-Techniker besteht jedoch darin, zu definieren, was innerhalb der Infrastruktur ihrer Organisation als „normal“ gelten soll.
Keine Branchen-Standards für Netzwerk-Monitoring und -Kennzahlen
IT-Anwendern, die für Best Practices die Information Technology Infrastructure Library (ITIL) eingeführt haben, stehen ITIL-spezifische Monitoring-Tools zur Verfügung. Diese Tools verwenden Konfigurationsdatenbanken und Anwendungen, die für das IT Services Management entwickelt wurden. Über ITIL hinaus gibt es allerdings keinen Branchen-Standard zur Festlegung einer Netzwerk-Basisleistung. Die Unterstützung für Monitoring-Tools und die Breite und Tiefe der gelieferten Informationen können je nach Hersteller, Gerät und Betriebssystem stark variieren, was letztlich gemeinsame Kennzahlen für das Monitoring verhindert.
Ein guter Ausgangspunkt wären die Netzwerk-Anbieter selbst. Jeder Hersteller hat zumindest eine Liste der Monitoring-Produkte, die ein bestimmtes Gerät von ihnen unterstützt. Angesichts der weiten Verbreitung von Monitoring-Protokollen wie SNMP haben viele Anbieter außerdem eigene Empfehlungen oder Best Practices für das Monitoring und zur Festlegung von Schwellen für ihre Produkte. Bewaffnet mit dieser Information, können sich Administratoren zunächst auf eine Teilmenge der verfügbaren Monitoring-Produkte konzentrieren und diese nach Bedarf erweitern. Cisco beispielsweise empfiehlt nicht mehr als 60 Prozent CPU-Auslastung auf seinen Routern und hat eine SNMP-Message veröffentlicht, die diesen Wert überwacht.
Überwachung der Netzwerk-Performance: Bestandsaufnahme und Virtualisierung
Achten Sie beim Aufbau Ihrer Liste zu überwachender Netzwerk-Komponenten darauf, dass sie sowohl physische als auch virtuelle Devices enthält. Angesichts der aktuellen Trends zu Applicance- und Server-Virtualisierung sind virtuelle Switches (vSwitches) und virtualisierte Anwendungsbeschleuniger wichtig für die Beurteilung der Netzwerk-Leistung. vSwitches dienen als Netzwerk-Ports und ermöglichen virtuellen Maschinen, miteinander zu kommunizieren, ohne dabei über physische Netzwerk-Adapter zu gehen. Sie beschleunigen zwar die Kommunikation zwischen Servern, ermöglichen es Netzwerk-Monitoring-Tools aber nicht, diese Pfade offenzulegen oder Anwendungsdaten zu erfassen. Glücklicherweise hat die Netzwerk-Branche dieses Problem erkannt und arbeitet an einer Lösung, entweder mittels intelligenter vSwitches oder über virtuelle Server-Standards wie zum Beispiel Virtual Ethernet Port Aggregator (VEPA). Damit würde virtualisierter Datenverkehr auch für traditionelle Monitoring-Tools sichtbar.
Daten zur Festsetzung einer Performance-Baseline sammeln
Nach der Bestandsaufnahme ist der nächste Schritt, den über die Infrastruktur laufenden Datenverkehr zu analysieren. Auslastung ist zwar ein sinnvoller Indikator für den Zustand des Netzwerks, bietet aber keinen Kontext für die eigentlichen Benutzeraktivitäten. Um Einblick zu erhalten, wie das Netzwerk verwendet wird, müssen Monitoring-Tools tatsächliche Datenpakete sammeln und öffnen.
Es gibt zwei Ansätze zum Sammeln von Netzwerk-Daten für die Traffic-Analyse, wobei beide ihre Vor- und Nachteile haben. Capture- oder Sniffing-Tools erfassen den gesamten Datenstrom und bieten Administratoren so einen vollständigen Überblick zu jedem beliebigen Zeitpunkt. Sniffing zeigt alles, was passiert. Das ist essentiell für forensische Netzwerk-Analysen und Fehlerbehandlung, aber möglicherweise Overkill für das laufende Monitoring und Baseline-Analysen. Zum Monitoring der Netzwerk-Leistung sind Kennzahlen zu Anwendungs- und Netzwerkauslastung entscheidend, nicht unbedingt der Inhalt jedes einzelnen Pakets. Hier können Sniffing-Tools die erforderlichen Informationen zwar liefern, aber mit erheblichem Overhead.
Proben nehmen mit sFlow/NetFlow
Eine Alternative sind Protokolle wie NetFlow und sFlow. Sie produzieren weniger überflüssige Daten, indem sie Traffic nur zu vorgegebenen Zeitpunkten aufzeichnen. Netflow und seine Varianten, in vielen Unternehmens-Routern bereits eingebaut, können Sampling-Daten an einen Netzwerk-Monitor weiterleiten, ohne den Overhead eines Sniffers zu verursachen. So ergibt sich ein sinnvoller Überblick, welche Anwendungen im Netz aktiv sind. Mittels einer Paketanalyse können Administratoren Trends in der Anwendungsnutzung finden und jeder Anwendung ihren passenden Anteil an den Ressourcen zuweisen.
Wer tiefer einsteigen möchte, dem helfen die Tools auch Internet-Traffic zu analysieren und zum Beispiel Cloud-basierte Anwendungen von allgemeinem Web-Surfen zu trennen. Wer herausfindet, wie viele Ressourcen jede Anwendung konsumiert, kann nicht nur Ursachen für Antwortzeit-Probleme identifizieren, sondern auch die Auswirkungen neuer Anwendungen und Dienste sehen, sobald sie bereitgestellt werden.
Wie lange müssen Sie Ihr Netzwerk beobachten, um eine Baseline zu definieren?
Sind alle gewünschten Monitore eingerichtet, ist der nächste Schritt, sie laufen zu lassen und Daten zu sammeln. Viele Experten geben sieben Tage als ein effektives Monitoring-Fenster an, damit sich Performance-Trends zeigen können.
Dabei ist wichtig, zu berücksichtigen, wann der Datenverkehr erfasst wurde. Zyklische Nutzungsmuster gibt es in den meisten Organisationen und jede Traffic-Analyse sollte auf diese Muster eingehen. Ein großes Einzelhandelsunternehmen beispielsweise hätte Netzwerk- und Anwendungs-Spitzen während des Weihnachtsgeschäfts, ein Produktionsbetrieb könnte den umgekehrten Effekt erleben, falls seine Fertigung über die Feiertage ruht. Berücksichtigt der Analyst solche Zyklen nicht, kann das die Netzwerk-Baseline in beiderlei Richtung verfälschen.
Jegliche signifikant hohen oder niedrigen Ausschläge gilt es zu identifizieren und herauszufinden, warum sie auftreten und ob sie tatsächlich in die Netzwerk-Norm passen. Sehen Sie aufgrund eines bekannten Problems gelegentliche Spitzen, dann definieren Sie die Baseline anhand der übrigen Datenpunkte. Sind Spitzen dagegen als „üblich“ identifiziert, nehmen Sie diese in den Durchschnitt für die Metrik mit auf. Es ist auch möglich, dass während Ihres Monitoring-Zyklus zufällig ein erhebliches Netzwerk-Problem aufgetreten ist. Dann wäre es sicherer, die Datenpunkte zu verwerfen und neue zu erfassen, nachdem die Situation bereinigt wurde.
Sind genug Monitoring-Daten gesammelt und Ausreißer erklärt oder beseitigt, lässt sich eine Baseline für jede der Kennzahlen bestimmen. Endergebnis ist die Festlegung eines typischen Wertebereichs für jeden Ihrer vorher definierten Netzwerk-Aspekte. Die Kombination dieser Bereiche entspricht der aktuellen Netzwerk-Basisleistung.
Schließlich gilt es dabei noch zu beachten, dass die festgelegten Baselines nur so lange taugen, bis sich etwas ändert. Hardware-Upgrades, neue Server und neue Anwendungen haben sämtlich ihre Auswirkungen und erfordern jeweils etwas Pflege und Fütterung der Monitoring-Lösung. Die gute Nachricht ist jedoch, dass sich meistens nicht alles auf einmal ändert – kleine Nachbesserungen reichen also in der Regel aus.