Sergey Nivens - stock.adobe.com
Best Practises für das Performance-Monitoring von NVMe-oF
Das Speichernetzwerk kann die Vorteile von NVMe-oF mit niedriger Latenz beeinträchtigen. Erfahren Sie, wie diese bewährten Verfahren Probleme beheben können, bevor sie auftreten.
NVMe verspricht, die Latenzen der internen Kommunikation zwischen Speichergeräten und Prozessoren auf weniger als 100 Mikrosekunden zu reduzieren. Und NVMe-oF sollte die gleichen niedrigen Latenzen zu Shared Storage-Systemen bringen.
Dies führt zu dem Resultat, dass NVMe-oF in der Tat Systeme mit Direct Attached Storage (DAS) eliminieren kann, die wegen ihrer Latenzanforderungen bei Artificial Intelligence (AI), Machine Learning (ML) und Big Data Analytics wieder einige Popularität gewonnen hat.
Die Herausforderung für IT-Professionelle besteht darin, Performance-Monitoring für NVMe-oF einzurichten und zu überprüfen, ob die Netzwerkkonfiguration die niedrigen Latenzen von NVMe-oF unterstützt.
Warum Performance-Monitoring von NVMe-oF wichtig ist
In der Vergangenheit war das Speichernetzwerk die schnellste Gruppe von Komponenten innerhalb der Speicherinfrastruktur. Die Anwendungen, Speichersysteme und Speichergeräte zeigten weitaus längere Latenzen als die Netzwerk-Switche und -Adapter.
Schlecht konfigurierte Netzwerk-Ports und -Adapter oder mangelhafte Kabel blieben oft unentdeckt. In den meisten Fällen bestand die einzige Motivation, das Speichernetzwerk auf eine höhere Bandbreite aufzurüsten, darin, eine höhere Geschwindigkeit zum gleichen Preis – oder billiger – wie die niedrigere Rate zu erhalten.
Inzwischen haben wir NVMe-oF, miteinander verbundene Speichersysteme mit internen NVMe-Speichermedien und außerdem Unternehmen, die mehr Anwendungen für KI, Machine Learning und Big Data Analytics einsetzen. Mit dem Resultat, dass der Kern des Netzwerks unter Druck steht, damit Schritt halten zu können. Jede falsche Konfiguration im Netzwerk macht es zu dem Engpass, der die Storage-Hardware und die modernen Anwendungen verlangsamt. Die Probleme im Netzwerk aufzudecken, bevor sie die Performance beeinträchtigen, wird zu einem entscheidenden Punkt.
Ein anderer Grund, warum das Performance-Monitoring von NVMe-oF so wichtig ist, liegt in den unglaublich hohen Erwartungen der Anwendungsnutzer. Sie gehen von performanten Anwendungen aus, so wie es das Speichersystem verspricht.
In den meisten Fällen verbessert die Installation eines schnelleren Speichersystems und Netzwerks mit größerer Bandbreite und niedrigeren Latenzen die Performance von Anwendungen, aber die Performance steigt eventuell nicht genug, um diesen Erwartungen gerecht zu werden.
Anders als in der Vergangenheit ist die Schuld in den meisten Fällen bei der jeweiligen Anwendung zu suchen. Aber nach wie vor muss das Personal der IT-Infrastruktur aufgrund der historischen Entwicklung die Netzwerk- und Speichersysteme überprüfen, ob sie korrekt konfiguriert sind und die versprochene Performance liefern.
Wie man Netzwerke ohne Latenzen überwacht
Wie konfiguriert das IT-Team von Beginn an die Storage-Infrastruktur korrekt, wie hat sie alle Änderungen im Auge und wie beweist sie, dass die Infrastruktur ordentlich funktioniert, wenn die Auftraggeber einer Anwendung sich über ihre Performance beklagen?
Letztlich reduziert sich alles auf das Sammeln und Interpretieren der Telemetrie-Daten, die Netzwerk-Switches sowieso produzieren. Ein Netzwerk-Switch „sieht“ jede I/O-Anforderung, die von einer Anwendung an das Speichersystem gesendet wird, aber die Daten zu sammeln und sie so darzustellen, dass gut beschäftigte IT-Professionelle sie schnell interpretieren können, findet oft nicht statt.
Bei Netzwerken mit niedrigen Latenzen passiert ein Großteil des Datenverkehrs das Netz so schnell, dass die gewöhnlichen Messmethoden der Telemetrie eventuell viele Ereignisse übersehen, die die Netzwerk-Performance beeinflussen. Die meisten Monitoring-Tools sammeln Daten, indem sie alle zehn Sekunden Snapshots der I/O-Daten des Netzwerkverkehrs und der Switching-Umgebungen erstellen.
Eine sehr große Menge an I/O-Prozessen kann ein NVMe-oF-Netzwerk in 10 Sekunden durchqueren. In dieser kurzen Zeit können Tools zur Kontrolle entscheidende Hinweise auf Probleme übersehen. Sie sind eventuell nicht in der Lage, dem IT-Team die notwendigen Informationen zu liefern, ob eine Unregelmäßigkeit nur vorübergehend oder ein triftiger Hinweis auf ein zugrunde liegendes Problem ist. Abnehmende Zeitintervalle können jedoch mögliche Auswirkungen auf die Performance verstärken, und das Tool kann womöglich nicht alle erfassten Daten dauerhaft speichern.
Eine andere Option besteht in der Erfassung von Telemetrie-Daten in Echtzeit, aber wenn dies direkt auf dem Switch geschieht, kann dies ebenfalls die Performance beeinträchtigen. Wie schon in der Vergangenheit benutzen Unternehmen heute Netzwerk-Taps, die sich innerhalb der Infrastrukturverkabelung befinden.
Diese Taps ermöglichen in Echtzeit einen Informationsfluss hin zu der Software für die Telemetrie-Analyse, ohne dass die Performance des Switches tangiert wird. Die Einrichtung von solchen Taps kann jedoch zu Störungen führen. Während dieses Installationsprozesses werden die meisten IT-Administratoren davon ausgehen, dass es zu Netzausfällen kommt.
Anstelle der Datenabfrage zu bestimmten Zeitpunkten oder der Installation von Netzwerk-Taps mit ihren Kosten und der Gefahr von Ausfällen können sich Unternehmen auch für Netzwerk-Switche mit einer speziellen Telemetrie-ASIC (Application-Specific Integrated Circuit) entscheiden. Die dedizierten ASICs ermöglichen die Erfassung von Telemetrie-Daten in Echtzeit und ohne Einfluss auf die Performance.
Die Erfassung von Telemetrie-Daten ist nur der halbe Sieg
Das Erfassen von Telemetrie-Daten in Echtzeit und ohne die Beeinträchtigung der Performance des Speichernetzwerks ist ein wesentlicher Schritt vorwärts bei diesen sehr schnellen Netzen mit geringen Latenzen. Der nächste Schritt besteht in der Aufbereitung der anfallenden Daten, damit gut beschäftigte IT-Administratoren sie nutzen können, um mögliche Probleme oder kommende Defizite bei den Netzwerk-Ressourcen zu erkennen.
Man sollte sich nach Tools umsehen, die nicht nur die Telemetrie-Daten deutlich präsentieren, sondern die auch Machine Learning und Big Data Analytics zur Diagnose von Netzwerkproblemen verwenden. Das langfristige Ziel sollte darin bestehen, das Monitoring-System des Netzwerks so zu trainieren, dass es automatisch korrigierende Maßnahmen nach dem Vorbild der IT-Administratoren ergreifen kann.
Die niedrigen Latenzen von NVMe und NVMe-oF bedeuten zusammen mit den I/O-Anfragen von modernen Workloads, dass sich mangelhaftes Netzwerk-Design und -Konfiguration nicht länger hinter den Latenzen von anderen Komponenten der Speicherinfrastruktur verstecken können. Die IT-Abteilung muss das Design des Speichernetzwerks und seinen Ressourcenverbrauch proaktiv beobachten, um immer den I/O-Anforderungen des Unternehmens einen Schritt voraus zu sein.
Durch eine Erfassung der Telemetriedaten in Echtzeit mittels ASICs auf der Switch-Ebene wird ein Unternehmen in die Lage versetzt, Performance-Monitoring per NVMe-oF durchzuführen und abzuwarten, was dann mit dem Netzwerk passiert. Zusammen mit dem richtigen Analyse- und Präsentations-Tool sollte das IT-Team dann fähig sein, proaktiv mögliche Probleme schon in ihrem Anfangsstadium oder vorher zu lösen und zukünftige Infrastrukturanforderungen zu planen.