Eine einfache Checkliste für Server-Wartung in modernen Data Centern
Mit einem Wartungs-Plan und einer Checkliste vermeiden Sie Hardware- und Software-Probleme bereits im Vorfeld. So bleibt Ihr Data Center gesund.
Data-Center-Server sind nichts weiter als durchdachte Maschinen. Um das Optimum aus ihnen zu holen, müssen die Computer regelmäßig gewartet werden. Das ist auch bei allen anderen Maschinen so. Einfache Wartungs-Routinen reduzieren ernsthafte Notrufe und erweitern gleichzeitig die Lebensdauer der Server.
Trotz Performance und redundanten Features der modernen Server zehren Workload-Konsolidierung und Anforderungen hinsichtlich Verlässlichkeit an Ihrer Server-Farm. Deswegen sollten Ihre Checkliste für Server-Wartung nicht nur physikalische Komponenten, sondern auch die entscheidenden Konfigurations-Elemente der Systeme abdecken.
Legen Sie sich eine Routine zurecht und halten Sie sich möglichst daran
Server-Administratoren übersehen es häufig, ein Wartungs-Fenster einzuplanen. Warten Sie nicht, bis es tatsächlich zu einem Ausfall kommt. Führen Sie feste Zeiten für Routine-Wartung ein, um Probleme im Vorfeld zu unterbinden.
Die Wartungs-Häufigkeit hängt dabei vom Alter der Ausrüstung, der Umgebung des Data Centers, der Anzahl der Server mit Wartungs-Bedarf und anderen Faktoren ab. Zum Beispiel sollten Sie ältere Ausrüstung in einem Hardware-Kabinett häufiger inspizieren als nagelneue Server in einem HEPA-gefilterten und sehr gut klimatisiertem Data Center. Unternehmen können hier Wartungs-Pläne für Routine-Checks auf Basis von Hersteller- oder Drittanbieter-Anweisungen aufstellen. Sollte der Hersteller-Service-Vertrag eine System-Inspektion alle vier bis sechs Monate vorschlagen, halten Sie sich am besten daran.
In der Zeit vor der Virtualisierung haben Wartungs-Fenster Arbeitsabläufe gestört. Somit mussten Administratoren die Maintenance nachts oder an Wochenenden durchführen. Durch virtualisierte Server können Sie Workloads umverteilen und umgehen somit eine Downtime. Dadurch ist die Verfügbarkeit von Applikationen auch während der Wartungs-Fenster garantiert.
- Regelmäßige Wartung erspart Ärger. Führen Sie deswegen einen sinnvollen Wartungs-Zeitplan anhand der verwendeten Ausrüstung ein und ziehen Sie dabei die Empfehlungen der Hersteller in Betracht.
Lassen Sie den Servern Luft
Sobald ein Server offline ist, überprüfen Sie visuell die internen und externen Luftkanäle. Entfernen Sie sämtliche Ansammlungen von Staub und andere Ablagerungen, die sich negativ auf den kühlenden Luftstrom auswirken können.
- Stellen Sie sicher, dass Sie die Säuberungsaktion an einem antistatischen Ort durchführen. Warten Sie den Server nicht direkt vor Ort im Rack.
- Fangen Sie dabei mit den äußeren Ein- und Ausgängen an und arbeiten Sie sich in das Innere des Gehäuses vor.
- Überprüfen Sie die CPU-Kühler und die entsprechenden Lüfter. Inspizieren Sie die Lüfterflügel und die Luftdurchgänge sorgfältig.
- Auch die Speichermodule verdienen einen Blick.
- Entfernen Sie Ablagerungen und Staub mit sauberer Druckluft.
Staubentfernung ist ein traditioneller Prozess, der noch lange nicht obsolet ist. Staub ist eine thermische Isolierung und somit ist es umso wichtiger, dass er sorgfältig entfernt wird. Das gilt vor allen Dingen, nachdem alternative Kühlschemen und ASHRAE-Empfehlungen die Durchschnitts-Temperatur im Data Center angehoben haben. Staub und andere Störenfriede der Luftströme verurteilen die Server zu einem höheren Stromverbrauch. Im schlimmsten Fall gefährden Sie ohne Reinigung ein frühzeitiges Ableben bestimmter Komponenten.
Überprüfen Sie die internen Festplatten
Viele Server benötigen für den Boot-Vorgang interne Festplatten. Das gilt auch für das Starten des Workloads und des Storages, Anwenderdaten und anderer Funktionen. Datenträger-Probleme stören Workload-Performance und Stabilität enorm. Das führt häufig zu einem verfrühten Ableben von Festplatten.
Magnetische Medien sind nicht perfekt. Häufige Problemzonen sind schlechte Sektoren und Fragmentierung. RAID hilft natürlich beim Schutz der Datenintegrität sehr hinsichtlich Storage-Fehler. Allerdings haben kleinere 1U-Rack-Server oft nicht genug physikalischen Platz für ein Datenträger-Array.
- Benutzen Sie Tools wie CHKDSK (Check Disk), um die Integrität der Festplatten zu prüfen.
- Sollten sich schlechte Sektoren darauf befinden, können Sie diese mittels CHKDSK möglicherweise wieder herstellen. Die aktualisierte CHKDSK-Version in Windows Server 2012 analysiert und repariert Datenträger-Probleme mit der Dateisystem-Struktur recht zügig.
Fragmentierung von Massenspeichern wird für absehbare Zeit zu unserem täglichen Leben gehören. Das gilt zumindest so lange wie NTFS, FAT (File Allocation Table) und andere Dateisysteme den Platz anhand von den zuerst verfügbaren Clustern verteilen. Fragmentierung kann die Performance einer Server-Festplatte nachhaltig beeinträchtigen und sogar zu Ausfällen führen.
- Tools wie Optimize-Volume unter Windows Server 2012 reihen die Cluster einer Datei auf der Festplatte aneinander.
Lesen Sie das Kleingedruckte im Ereignis-Protokoll (Event Log)
Server halten in den Ereignis-Protokollen sehr wertvolle Informationen vor. Das gilt vor allen Dingen für auftretende Probleme.
- Zu jeder Inspektion eines Servers gehört eine sorgfältige Durchsicht des Systems.
- Prüfen Sie die Ereignis-Protokolle des Systems auf Malware und andere Probleme.
Natürlich sollten den Administratoren und IT-Technikern kritische Systemprobleme sofort aufgefallen sein. Allerdings gibt es unzählige kleinere Zipperlein, die auf chronische oder ernste Probleme hinweisen.
- Prüfen Sie auch das Setup in Bezug auf das Reporting.
- Stellen Sie sicher, dass die richtigen Personen im Falle eines Problems alarmiert werden.
Verlässt zum Beispiel ein Mitarbeiter die Server-Abteilung, müssen Sie das Reporting-System des Servers auf den neuesten Stand bringen.
- Wenn Sie gerade dabei sind, werfen Sie auch ein Auge auf die Meldemethoden.
Wird ein kritischer Fehler nur an die E-Mail-Adresse eines Technikers gesendet, könnte sich das außerhalb der Geschäftszeiten abspielen.
- Arbeiten Sie proaktiv mit Log-Daten.
Sollte die Inspektion eines Logs chronische oder immer wiederkehrende Probleme ans Tageslicht bringen, könnte eine proaktive Untersuchung Schlimmeres und somit eine Eskalation des Missstandes vermeiden. Finden Sie zum Beispiel Einträge im Log über wiederherstellbare Fehler bei den Arbeitsspeicher-Modulen, wird das wahrscheinlich noch keine kritischen Alarme ausgelöst haben. Allerdings deuten Wiederholungen des Ereignisses auf Probleme mit einem Arbeitsspeicher-Modul hin. Somit sollten Administratoren eine genauere Untersuchung starten, um das Problem zu identifizieren und zu beseitigen.
Sind die Probleme nicht ernst genug, um ein Abschalten des Servers zu rechtfertigen, können Sie diesen weiterhin produktiv einsetzen und auf Hardware-Ersatzteile warten.
Nehmen Sie sich Zeit für Patches und Updates
Der Software-Stack des Servers muss miteinander interagieren und zusammenarbeiten. Wir sprechen hier von BIOS, Hypervisoren, Treibern, Applikationen, Support-Tools und so weiter. Unglücklicherweise ist Software-Code in den seltensten Fällen elegant oder frei von Problemen. Deswegen werden Teile dieses Software-Puzzles in regelmäßigen Abständen geflickt oder aktualisiert. Das adressiert Bugs, verbessert die Sicherheit, Interoperabilität, Performance und so weiter.
- Produktive Software sollte sich niemals automatisch aktualisieren.
- Sie als Administrator entscheiden, ob ein Patch notwendig ist und testen den entsprechenden Flicken dann sorgfältig in einer Testumgebung.
- Behebt das Update ein Problem, das auf Ihren Server nicht zutrifft? Ist es das Risiko wert?
Software-Entwickler können nicht jedes denkbare Szenario an Hardware- und Software-Kombinationen testen. Somit schaffen Software-Updates in bestimmten Fällen mehr Probleme als sie reparieren. Es kommt eben auf Ihre spezifischen Server und Software-Stacks an. Zum Beispiel könnte ein Monitoring-Agent Performance-Probleme bei einer bestimmten Workload verursachen, weil der neue Agent ganz einfach mehr Ressourcen oder Bandbreite beansprucht.
Die Verlagerung zu DevOps führt zu kleineren, aber häufigeren Updates. Das wiederum erhöht das Potential für Probleme. Sie müssen weiterhin jeden Patch oder jedes Update in einer Testumgebung ausprobieren, bevor Sie die Aktualisierung auf die produktiven Systeme loslassen.
- Stellen Sie sicher, dass sich Änderungen rückgängig machen lassen.
- Spielen Sie die vorherige Software-Konfiguration ein, sofern dies notwendig ist.