Gorodenkoff - stock.adobe.com

Leistungsoptimierung: Tipps für die Fehlerbehebung in SANs

Zu den häufigen SAN-Problemen gehören Kompatibilitätsprobleme, Hardwareausfälle und langsame Reaktionszeiten, aber mit bewährten Strategien lassen sich diese Probleme leicht lösen.

Storage Area Networks (SANs) können komplizierte und sich verändernde Umgebungen sein. Dies gilt insbesondere dann, wenn sie schlecht verwaltet werden. Die Fehlerbehebung ist schwierig, da ein gutes Design nicht immer offensichtlich ist und die Fibre-Channel-Standards gerade locker genug sind, um die Interoperabilität zu einem Problem werden zu lassen.

Fibre-Channel-SANs sind in vielen Rechenzentren weitgehend durch iSCSI-SANs als Blockspeicherlösung verdrängt worden. Doch während iSCSI eine kostengünstigere Alternative ist, die etwas einfacher zu verwalten ist, die vertraute Ethernet-Netzwerktechnologie nutzen kann und ein vorhandenes LAN mitbenutzen könnte, ist FC immer noch das Protokoll der Wahl, wenn hochleistungsfähige Block Storage erforderlich sind. Als solches bleibt es in den meisten Geschäften eine wichtige Speicheralternative, trotz des Aufkommens anderer Alternativen.

Es ist wichtig, häufige FC-SAN-Probleme zu überprüfen, um herauszufinden, wie die Probleme diagnostiziert und gelöst werden können oder wie sich Probleme von vornherein vermeiden lassen.

Häufige Probleme

In einem komplexen Speichernetzwerk kann eine Vielzahl von Dingen schief gehen. Der FC wurde von Grund auf für die Unterstützung vernetzter Speichersysteme entwickelt, so dass zwar ein gewisses allgemeines Netzwerkwissen auf seine Verwaltung angewendet werden kann, aber auch ein erheblicher Grad an Spezialisierung erforderlich ist. Es sollte auch beachtet werden, dass die Anbieter von FC-SANs in den letzten Jahren die Array-Verwaltung zu einem einfacheren Prozess gemacht haben, indem sie einige Funktionen automatisierten und die Anzahl der für Dinge wie die LUN-Konfiguration erforderlichen Schritte verringerten.

Dennoch kann die Aufrechterhaltung der Leistung von FC-SANs immer noch eine Herausforderung sein, aber ausgehend von den Symptomen sollte die Eingrenzung eines Problems auf eine wahrscheinliche Ursache in einem dieser Bereiche die Fehlersuche und -behebung beschleunigen. Jeder Fehlertyp kann in einen der folgenden Bereiche gruppiert werden:

Kompatibilitätsprobleme

Obwohl es FC-SANs seit fast drei Jahrzehnten gibt, arbeiten nicht alle Geräte gut zusammen. Es kommt sehr häufig vor, dass viele SAN-Probleme auf nicht interoperable Komponenten zurückzuführen sind. Alle Speicherhersteller veröffentlichen eine Art Supportmatrix – in der Regel als Hardware-Kompatibilitätsliste (HCL) bezeichnet – in der sie getestete und unterstützte Konfigurationen von Speicher-Array-Mikrocode, SAN-Switch-Firmware und Host-Hardware/Software dokumentieren.

Ein SAN kann unter Verwendung von Hardware oder Software, die nicht in der HCL aufgeführt ist, eine Zeit lang ohne Probleme funktionieren, aber diese Praxis ist riskant und kann die Behebung von Leistungsproblemen erschweren.

Überschreiten der Kapazitätsgrenzen

Es ist wahrscheinlich offensichtlich, dass gesättigte (bis ans Limit ausgelastet) SAN-Ports Engpässe verursachen, und diese Engpässe können sich in Anwendungsprobleme verwandeln, die schwer zu diagnostizieren sein könnten. Normalerweise ist es ziemlich einfach, einen Host- oder Speicher-Port auf dem SAN zu untersuchen und festzustellen, ob er zu 100 Prozent ausgelastet ist, aber es ist schwieriger festzustellen, ob eine überlastete Inter-Switch-Verbindung (Inter Switch Link, ISL) ein Übeltäter ist.

Manchmal stellt der I/O selbst keinen Engpass dar, sondern stattdessen werden Grenzwerte wie die Lüfterverhältnisse –- die Anzahl der Host-Bus-Adapter (HBAs), die einem Speicher-Port zugeordnet sind – und die Anzahl der Switches in einer Fabric überschritten, was zu Konnektivitätsproblemen führt.

Anbieter von FC-Switches bündeln in der Regel Software, die bei der Erkennung von Engpässen helfen und möglicherweise sogar Lösungsvorschläge unterbreiten kann. Es sind auch Applikationen von Drittanbietern erhältlich, wie die SolarWinds-Produktfamilie, die OnCommand-Apps von NetApp und IntelliMagic Vision für SAN, die Einblicke in den SAN-Betrieb bieten, um Engpässe zu verfolgen und zu beheben.

Diese Tools von Drittanbietern unterstützen in der Regel mehrere verschiedene Storage-Marken und -Modelle, so dass sie besonders in Umgebungen mit gemischten Anbietern nützlich sein könnten. Diese Klasse von Tools gibt es schon seit geraumer Zeit, die ursprünglich zusammen als Storage Resource Monitor bezeichnet wurden; sie haben sich anfangs aufgrund ihrer Komplexität nicht durchgesetzt, sondern wurden verschlankt und gleichzeitig um neue Funktionen erweitert und die Benutzerfreundlichkeit verbessert.

Falsches Konfigurieren oder Zoning

Schlechtes oder falsche Zoning ist eine der häufigsten Ursachen für SAN-Probleme. Vielleicht liegt es daran, dass wir die SAN-Zoning am häufigsten ändern. Vielleicht liegt es auch daran, dass Zonen diese heiklen 16-stelligen hexadezimalen World Wide Names (WWNs) enthalten.

Fehlerhafte Verbindungen und Kabel

Wenn Glasfaserkabel ausfallen, scheinen sie selten vollständig auszufallen. Stattdessen „sterben“ sie langsam mit intermittierenden Symptomen ab. Auf dem bis zum Ausfall machen sie Anwendungen und Administratoren oft Probleme. Diese könnten sich noch verschärfen, da es mehrere Kabeltypen gibt, die von den meisten SAN-Umgebungen unterstützt werden, so dass Überwachungswerkzeuge, die genaue Ergebnisse von einer Vielzahl von Kabelmedien liefern können, hilfreich sein könnten.

Konfigurationsprobleme bei Speicher-Arrays

Jede Marke von Speicher-Arrays wird etwas anders verwaltet, aber alle haben einige grundlegende Konzepte gemeinsam. LUNs müssen erstellt und einem HBA über einen Frontend-SAN-Port zugewiesen werden. Probleme treten häufig auf, wenn der Speicheradministrator bei der Konfiguration des Arrays einen Tippfehler macht. Die manuelle Erstellung von LUNs kann ein komplizierter und mühsamer Prozess sein, der fehleranfällig ist.

Probleme bei der Host-Konfiguration

Auf einem Server kann viel schief gehen. Die Server in einer Netzwerkumgebung stellen einen großen Teil des SAN-Komponenten-Stacks dar, einschließlich des Volume-Managers, des Betriebssystems, der Multipathing-Software, des HBA-Treibers, der HBA-Firmware und der HBA-Hardware.

Jede dieser Komponenten muss gemäß den Spezifikationen des Speicherherstellers konfiguriert werden. Jegliche Abweichungen vom vorgeschriebenen Prozess des Herstellers können Probleme verursachen. In den meisten Geschäften hat die Servervirtualisierung die Anzahl der Betriebsserver erheblich erhöht.

Zusätzlich zu den komplizierten Serverkonfigurationsproblemen wird ein virtueller Server aufgrund der schieren Anzahl zusätzlicher Server wahrscheinlich eine spezielle Einrichtung durch Serveradministratoren erfordern.

SAN-Hardwareausfälle

Hardwareausfälle stehen auf der Liste der häufigsten SAN-Probleme an letzter Stelle, denn obwohl wir normalerweise zuerst danach suchen, ist es selten das Problem. Die heutige SAN-Hardware ist sehr zuverlässig, aber gelegentlich kommt es zu Hardwareausfällen. Häufige Fehler, die den Host-Zugriff beeinträchtigen können, sind SFP-Port-Fehler, Port-Karten-Fehler und komplette Switch-Fehler.

Langsame Storage-Antwortzeiten

Wie hier gezeigt wird, ist ein Speichernetzwerk eine komplexe Umgebung mit vielen Komponenten, die ordnungsgemäß eingerichtet und sorgfältig überwacht werden müssen, aber Leistungsprobleme können auch durch die Speichergeräte selbst verursacht werden.

Die Datenspeichermedien werden einen tiefgreifenden Einfluss auf die Gesamtleistung des SAN haben. Heutzutage enthalten die meisten Speicher-Arrays mindestens SSDs, so dass die Leistungsoptimierung entweder eine Verlagerung zum oder vom Solid-State-Speicher oder vielleicht das Hinzufügen weiterer SSDs erfordern könnte.

Wenn eine hohe Leistung über eine breite Palette von Anwendungen erforderlich ist, könnte ein All-Flash-Array gerechtfertigt sein. Wenn Sie mit einem reinen Festplatten-Array auskommen müssen, aus dem Sie zusätzliche Leistung herausholen müssen, können herkömmliche Optimierungen, wie zum Beispiel das Short Stroking bei Festplatten, für zusätzliche Performance sorgen.

Bestimmung des Problems

Die SAN-Fehlerbehebung erfordert eine genaue Kenntnis der gewünschten Konfiguration und des erwarteten Verhaltens eines bestimmten Systems. Wenn ein Problem auftritt, ist es hilfreich, sich mit dem Problem zu befassen, indem man die ordnungsgemäß funktionierenden Komponenten im SAN, den Hosts und dem Speicher eliminiert.

  • SAN. Sind in letzter Zeit Änderungen am SAN aufgetreten? Hören Sie sich um, überprüfen Sie die SAN-Protokolle und vergleichen Sie die laufende Konfiguration mit der Dokumentation. Stehen die SAN-Berichte über Ereignisse oder Fehler im Zusammenhang mit dem SAN? Suchen Sie nach fehlgeschlagenen Ports, kürzlich erfolgten Port-Abmeldungen oder Fabric-Neuaufbauten.
  • Host. Können andere Hosts den fraglichen Speicher sehen? Kann dieser Host anderen Speicher sehen? Ist der HBA in die Fabric eingeloggt? Sind in letzter Zeit Host-Änderungen aufgetreten? Gibt es SAN-bezogene Meldungen in den Systemmeldungsprotokollen der Hosts?
  • Speicher. Können andere Hosts den fraglichen Speicher sehen? Ist der Speicher-Port in die Fabric eingeloggt? Sind in letzter Zeit Änderungen am Storage-Array aufgetreten? Werden in den Storage-Array-Protokollen Fehler gemeldet?

Alle oben genannten Inspektionspunkte werden stark vereinfacht, wenn eine Änderungsverwaltungssoftware (Change Management Software, CMS) verwendet wird. Change-Management-Anwendungen können auch dazu beitragen, das Supportpersonal auf Server oder Datenspeicher aufmerksam zu machen, die möglicherweise verwaist sind oder nicht in die Backup-Operationen einbezogen werden.

Vermeiden Sie zukünftige Probleme

Überprüfen Sie die Support-Ressourcen

Überprüfen Sie regelmäßig die HCLs und andere Supportmaterialien von Speicheranbietern, um Ihre Konfiguration mit den aktuell unterstützten Komponenten zu vergleichen. Die Hersteller finden ständig neue Fehler, die in neuem Code behoben werden. Suchen Sie nach Aktualisierungen und machen Sie es sich zur Gewohnheit, Ihre Softwareversionen auf dem neuesten Stand und unterstützt zu halten – das hilft, eine Menge Probleme zu vermeiden.

Dokumentieren Sie das SAN

Dies ist eine riesige Aufgabe. Es ist äußerst wichtig, bei der Fehlerbehebung eines Problems zu verstehen, was die ursprüngliche Designabsicht der SAN-Umgebung war. Vergewissern Sie sich, dass die Dokumentation Hosts, HBAs, WWNs und deren Verbindungsort aufzeichnet. Sie sollte den Speicher, die Speicher-Ports und ihre WWNs enthalten. Schließlich sollte die SAN-Dokumentation die Fabrics, ISLs, Zonensätze, Zonen und Zonenmitglieder beschreiben.

Wenn das ursprüngliche Designdokument nicht existiert, sollten Sie in der Lage sein, eine SAN-Management- oder Änderungsmanagement-Anwendung zu verwenden, um alle Netzwerkgeräte zu ermitteln und zu inventarisieren – und in vielen Fällen können auch wichtige Konfigurationsinformationen wie die Netzwerkadresse in die Inventarisierung aufgenommen werden.

SAN-Basisleistung

Solange Sie nicht aufzeichnen, was an einem durchschnittlichen Tag passiert, wird es schwierig sein, festzustellen, ob ein geschäftiger Port normal oder der Übeltäter während eines Problems ist. Zeichnen Sie mindestens die durchschnittliche Port-Auslastung für jeden Port im SAN auf.

Wenn Sie ein SAN-Überwachungs-Tool verwenden, kann es dies wahrscheinlich für Sie erledigen – sobald akzeptable Leistungsschwellenwerte festgelegt sind, senden die meisten Überwachungsprogramme E-Mail- oder Text-Benachrichtigungen, wenn diese Schwellenwerte überschritten werden. SAN-Überwachungsanwendungen bieten auch Dashboards für Echtzeit-Einblicke in den Netzwerkstatus und einzelne Netzwerkkomponenten.

Planen Sie Ihre Änderungen

Um administratorbedingte Ausfälle zu vermeiden, verwenden Sie die SAN-Dokumentation, um Änderungen zu definieren, bevor sie erfolgen. Wenn Sie Entscheidungen darüber treffen, was bei der Ausführung der Änderung zu tun ist, machen Sie es falsch. Außerdem vergisst man allzu leicht, eine Änderung zu dokumentieren, nachdem sie erfolgt ist. Bei einigen Change-Management-Apps können Sie auch „Was-wäre-wenn“-Analysen durchführen, um die Auswirkungen einer erwarteten Änderung auf die SAN-Umgebung oder die damit verbundenen Speichersysteme zu testen.

Sichern der Konfigurationen

Sichern Sie nach jedem Tag der SAN-Änderungen die Switch-Konfiguration und bewahren Sie sie sicher auf. Dadurch wird sichergestellt, dass Sie Änderungen schnell von einem Backup zurücksetzen können, wenn ein Switch ausfällt oder während einer Änderung völlig durcheinander gerät. Um noch sicherer zu sein, sollten Sie Ihre Backup-Anwendung so konfigurieren, dass alle wichtigen Konfigurationsdateien während der täglichen Datensicherungsvorgänge regelmäßig gesichert werden.

Die Fehlerbehebung bei SAN-Problemen kann ein relativ einfacher Prozess sein, wenn bestimmte Dinge unter Kontrolle sind und die Netzwerkumgebung gut abgebildet ist. Machen Sie diese Best Practices zu einem Teil Ihres täglichen SAN-Gesundheitsprogramms, um ein größeres Problem zu verhindern, wenn doch einmal etwas schief geht.

Erfahren Sie mehr über Storage Performance