alphaspirit - stock.adobe.com
So überwachen Sie die Performance von Cloud-Anwendungen
Bei Echtzeit-Anwendungen aus der Cloud geben Firmen die Kontrolle über das Netzwerk teilweise auf. Es gibt aber einige Mechanismen, um die Performance von Cloud-Apps zu überwachen.
Echtzeit-Anwendungen gewinnen in Unternehmen zunehmend an Bedeutung. Zu den Echtzeit-Applikationen gehören die Kommunikation per Sprache und Video, Screen Sharing, aber auch hochgradig interaktive Geschäftsprozesse und Überwachungssysteme. Bis zu einem gewissen Grad gehört auch Streaming Video zu den Echtzeit-Anwendungen, obwohl das Puffern die Bereitstellung von Videostreams verzögern kann.
Inwieweit sich häufige Netzwerkprobleme auf Echtzeit-Anwendungen auswirken, hängt von der Anwendung und dem verwendeten Mechanismus bei der Datenübertragung ab. Interaktionen per Sprache und Video sind relativ tolerant gegenüber einem zufällig verteilten Paketverlust von etwa einem Prozent. Die Anwendungen verwenden Paketströme des User Datagram Protocols (UDP), und die Codecs an den Endpunkten nutzen Interpolation, um die Werte der Daten in einzelnen verlorenen Paketen zu schätzen.
Auf der anderen Seite sind allerdings TCP-Anwendungen (Transmission Control Protocol) sehr anfällig für Paketverluste, sprich die meisten interaktiven Geschäftsanwendungen und das Streaming von Sprache und Video. Ein Paketverlust von mehr als 0,0001 Prozent hat hier einen signifikanten Einfluss auf den Durchsatz einer Anwendung, die TCP für den Transport der Daten verwendet.
Paketverluste führen dazu, dass eine Streaming-Anwendung abbricht oder kurz stoppt, während die verlorenen Daten vom sendenden System erneut übertragen werden. Das Ergebnis: Die Anwendung stockt, während sie Daten puffert.
Paketverluste gehen typischerweise auf Verbindungsfehler oder Überlastung/Stau zurück. Verbindungsfehler sind ein Indikator dafür, dass das IT-Team die Ursache finden und das Problem lösen muss. Überlastungen oder Staus sind auf Unterschiede in der Datenrate oder auf Aggregationspunkte zurückzuführen. Verbindungen sind unterschiedlich schnell, wenn Daten von einer Verbindung mit höherer Geschwindigkeit zu einer Verbindung mit niedrigerer Geschwindigkeit übertragen werden, zum Beispiel beim Übergang von einer 10-Gbit/s schnellen Fabric im Rechenzentrum zu einer 1-Gbit/s-Verbindung im Büro oder WAN.
Performance von Anwendungen überwachen und Paketprobleme lokalisieren
Eine weitere Quelle für Staus oder Überlastungen sind die Aggregationspunkte, an denen sich viele Links mit niedrigerer Geschwindigkeit mit einem Router oder Switch verbinden, der über ein oder zwei Uplinks mit höherer Geschwindigkeit verfügt. Wenn beispielsweise umfangreicher Datenverkehr von mehreren Endsystemen fast gleichzeitig an der High-Speed-Verbindung ankommt, verursacht er möglicherweise einen Buffer Overrun an der Schnittstelle, der große Paketverluste verursacht.
Auch Jitter (Taktzittern), sprich Laufzeitschwankungen, wirkt sich stark auf zeitkritische Anwendungen wie die Interaktion mit Sprache und Video aus. Jitter entsteht, wenn Echtzeit-Pakete in einer Warteschlange hinter mehreren großen Paketen stehen und warten müssen, bis sie übertragen werden. Folge sind große Latenz-Schwankungen.
Wird Jitter zu stark, kommen Sprach- und Videopakete einfach zu spät beim Empfänger an – und können dadurch nicht zum richtigen Zeitpunkt zur Wiedergabe an den Codec weitergeleitet werden. Die Voice-Endpunkte können zwar in einem gewissen Maß puffern, um die Wirkung von Jitter zu reduzieren, sie sind aber nicht mehr in der Lage, ein starkes Taktzittern zu kompensieren. Daher sieht hoher Jitter wie ein Paketverlust aus.
Hohe Überlastung oder Staus führen häufig zu Paketverlusten – meist als Folge von zu hoher Belastung mit Datenströmen anderer Anwendungen. Firmen finden diese Problemzonen, indem sie nach Schnittstellen suchen, an denen viele Datenpakete verschwinden (Drops). Verwenden Sie das Top-N 95. Perzentil der Drops, um Schnittstellen mit signifikanten Problemen zu identifizieren. Perzentil steht für Prozentrang. 95. Perzentil bedeutet, dass 95 Prozent aller anderen Werte denselben Wert haben oder darunter liegen. Schnittstellen mit vielen Drops sind ein Indiz dafür, dass die Verbindung überlastet ist oder künftig weniger Datenverkehr bewältigen beziehungsweise mehr Bandbreite erhalten sollte.
Über die Statistiken an den Schnittstellen lassen sich hohe Fehlerquoten einfach nachvollziehen; sie weisen auf ein Problem auf der physischen Schicht hin. Bei der Analyse des Echtzeit-Verkehrs sollten Firmen nach verschiedenen Quellen suchen, die den Datenverkehr beeinträchtigen. Dazu gehören Verbindungsfehler, hoher Jitter und durch Staus oder Überlastung verursachte Paketverluste, die auf Geschwindigkeitsunterschiede oder Aggregationspunkte zurückgehen.
Da die Unternehmen im Regelfall nicht auf die physischen Schnittstellen in der Cloud zugreifen können, ist es nicht möglich, Fehler oder Ausfälle an den Schnittstellen zu prüfen oder zu überwachen. Stattdessen müssen sie mit anderen Mechanismen nach Ursachen für gestörte Anwendungen suchen.
Passive Überwachung der Anwendungs-Performance
Anbieter von Cloud-Infrastrukturen bieten teilweise Mechanismen zum Erfassen von Paketen (pcap für Packet Capture) an. Alternativ können Firmen prüfen, ob ihre virtuellen Appliances wie Firewalls und Switches über die pcap-Technologie verfügen. Hier sollte es aber möglich sein, pcap-Dateien zu exportieren, damit sie Paketspuren mit einer Vielzahl von Werkzeugen untersuchen können.
Einige Anwendungen bieten gute interne Diagnose-Tools, um die Netzwerkprobleme zu identifizieren, die den Betrieb beeinträchtigen. Beispielsweise können Sprach- und Video-Endpunkte das Real-Time Transport Control Protocol (RTCP) verwenden, um Paketverluste, Jitter und Round-Trip-Zeiten während des Anrufs zu melden. Anhand dieser Informationen lässt sich feststellen, ob es sich um ein Problem an einem bestimmten Endpunkt, einer Gruppe von Endpunkten, einer Region oder sogar um ein systemweites Problem handelt. Hier kann etwas Detektivarbeit erforderlich sein, um die Cloud-Netzwerkinfrastruktur zu identifizieren, die ein Problem verursacht.
Alternativ können Firmen die Performance von Anwendungen überwachen, wenn Teile des Datenverkehrs über eine Leitung laufen, an der sie eine physische oder virtuelle Appliance platzieren können. Diese Systeme werden mit zunehmender Breite der überwachten Infrastruktur leistungsfähiger. Im Idealfall werden alle Ebenen einer mehrschichtigen Anwendung überwacht, so dass das Tool sowohl netzwerkbedingte als auch andere Probleme erkennt, welche die Anwendungs-Performance beeinträchtigen. Einige dieser Tools können pcap-Dateien zur Analyse importieren.
Netzwerk-Infrastruktur testen
Tools zum Testen von aktiven Pfaden (Active Paths) bieten viele Vorteile. Hier die verschiedenen Typen für das Testen von aktiven Pfaden:
- Synthetische Transaktionen: Legen Sie echte Transaktionen an. Stellen Sie beispielsweise einen Anruf zwischen bestimmten Endpunkten ein, um sicherzustellen, dass der Anruf-Controller korrekt funktioniert, und validieren Sie den Datenpfad zwischen den Endpunkten.
- Simulieren Sie den Anwendungsverkehrs: Testsonden tauschen Pakete aus, die der Anwendung entsprechen, aber eine diagnostische Nutzlast wie Paketzähler und Zeitstempel tragen, um die Pfadmerkmale zu messen. Dies erfordert, dass die Sonden über die gesamte Infrastruktur verteilt sind und die Anwendungssysteme nicht belastet werden.
- Standard-Netzwerkdiagnose: Hier sind keine besonderen Funktionen oder Skills notwendig. Traceroute kann Pfadinformationen liefern, die über andere Tools nicht sichtbar sind. Prüfsonden bieten oft diese Möglichkeit, zusätzlich zu den beiden anderen Prüfarten.
Beim Test der aktiven Pfade wird die Netzwerkinfrastruktur genau dann untersucht, wenn die kritischen Anwendungen nicht im Einsatz sind. Damit lassen sich Probleme frühzeitig erkennen und Informationen über immer wieder auftretende Probleme sammeln. Die Kombination von Standard-Netzwerkdiagnose mit synthetischen Transaktionen oder simuliertem Datenverkehr bietet einen Einblick in die Infrastruktur, der mit anderen Tools nicht möglich ist.
Daten sortieren
Netzwerk-Management-Tools können eine überwältigende Datenmenge liefern. Daten, die über Stunden oder einen Tag gemittelt werden, können aufgrund der langen Dauer von niedrigen Werten Probleme verbergen. Verwenden Sie stattdessen Sortierfunktionen wie das 95. Perzentil, um Elemente mit Problemen zu identifizieren. Diese Methode ist besonders nützlich für das Filtern von Schnittstellen und Links, die hohe Paketverluste aufweisen. Eine Übersicht der zehn wichtigsten Instanzen in jeder Problemkategorie ermöglicht es, sich auf die problematischsten Instanzen zu konzentrieren.
Sie benötigen nicht alle der oben genannten Tools, um loszulegen. Nutzen Sie das, was verfügbar ist, und fangen Sie an. Behalten Sie dabei die komplette Anwendungsinfrastruktur im Blick, welche Tools Sie zur Verfügung haben und was Sie von diesen Tools erhalten können, um die Anwendungs-Performance zu überwachen. Hier hilft ein wenig Kreativität und Einfallsreichtum langfristig weiter.
Folgen Sie SearchNetworking.de auch auf Twitter, Google+, Xing und Facebook!