Server Degradation (Verschleiß)
Was ist Server Degradation (Verschleiß)?
Server Degradation ist der allmähliche Ausfall der physischen Teile eines Servers.
Es treten in mehreren allgemeinen Bereichen Probleme mit der Hardware auf, zum Beispiel Stromversorgung, Temperatur, Management und Storage. Die Serverkomponenten altern mit der Zeit und Kühlkörper sowie Lüfter setzen sich mit Staub zu, was Effizienz und Leistung des Servers verringert.
Ohne angemessene Überwachung und Wartung verschleißt die Hardware mit der Zeit und fällt aus, was Unternehmen Produktivität, Gewinne und möglicherweise ihren Ruf kostet. Das Lifecycle Management von Servern zielt darauf ab, die Auswirkungen des Hardwareverschleißes zu mildern. Man überlegt, wie und wann die Server ersetzt werden sollten. Wenn IT-Teams einen Überblick über die häufigsten Ursachen für den Verschleiß der Hardware haben, erkennen und beheben sie potenzielle Probleme schnell, bevor sie auftreten.
Wie hoch ist die typische Lebensdauer eines Servers?
Im Allgemeinen können Server zwischen drei und zehn Jahre alt werden. Traditionell tauschen IT-Teams alternde Server etwa alle drei Jahre gegen neue aus, um Hardwareausfälle zu vermeiden. Die Produkte bleiben mit der Einführung der Servervirtualisierung jedoch länger in Betrieb. Clustering-Technologien, Virtualisierungsfunktionen wie Live-Migration und Verbesserungen bei der Hardware tragen alle zur Langlebigkeit von Servern bei.
Für Server gibt es ein End-of-Life-Datum des Originalgeräteherstellers (OEM), das angibt, wann ein OEM keine Serverausrüstung mehr vermarktet, verkauft oder aktualisiert. Das End-of-Life-Datum bedeutet jedoch nicht unbedingt das Ende der Betriebsbereitschaft eines Servers. Die richtige und konsequente Wartung verlängert die Lebensdauer von Hardware. Beispielsweise können aus Vorbesitz übernommene und generalüberholte Server viel länger halten als das End-of-Life-Datum des ursprünglichen Herstellers.
Dennoch können Unternehmen ihrer Hardware je nach Strategie alle fünf Jahre austauschen. Wenn ein Unternehmen beispielsweise in einen Server investiert, der bereits ein paar Jahre alt ist, muss oder möchte es diese Hardware möglicherweise früher ersetzen, als wenn es einen neuen Server kauft. Oder es riskiert, sich in Bezug auf Funktionen und Verbindungshardwareoptionen einzuschränken. Um eine optimale Leistung zu erzielen, kann ein Unternehmen ebenso neuere Hardware einsetzen.
Unter Umständen müssen Unternehmen, die ihre Hardware über einen langen Zeitraum hinweg mit minimaler Wartung betreiben, mit Serverabstürzen, Ausfallzeiten und Gewinneinbußen rechnen.
Häufige Probleme beim Verschleiß
Es gibt verschiedene Möglichkeiten, wie ein Verschleiß der Hardware eintreten kann. Wenn die Leistung eines Servers nachlässt, kann es zu Leistungsproblemen kommen. Dazu gehören Verlangsamungen, Verbindungsabbrüche, Ausfälle und Beschwerden von Endbenutzern. Wird das Problem nicht behoben, führt das Serverproblem möglicherweise zu einer Fehlfunktion der Hardware.
Ein Verschleiß der Hardware tritt in der Regel auf Komponentenebene auf. Zu den fehleranfälligsten Komponenten gehören Netzteile, Speicher und Festplatten.
Netzteile
Das Netzteil eines Servers ist dafür verantwortlich, die verschiedenen Komponenten des Servers mit der richtigen Menge an elektrischer Energie zu versorgen. Obwohl Netzteile im Allgemeinen zuverlässig sind, fallen sie manchmal aus. Die häufigste Ursache für den Ausfall eines Netzteils ist Überhitzung. Eingebaute Lüfter sollen das Netzteil kühl halten. Mit der Zeit bringen diese Lüfter jedoch Staub und andere Verunreinigungen in das Netzteil. Wenn sich genügend Staub ansammelt, verringert er den Luftstrom über die Komponenten des Netzteils, was zu einem Hitzestau führt. In extremen Fällen führt die Staubansammlung dazu, dass die Lüfter ausfallen. Das wiederum hat einen Ausfall des Netzteils zur Folge.
Auch Stromstöße und Blitzeinschläge können ein Netzteil zerstören. Diese Ereignisse führen dazu, dass der Eingangsstrom auf einen Wert ansteigt, der größer ist als der für das Netzteil ausgelegte. Das führt zur Zerstörung des Netzteils und möglicherweise anderer Komponenten.
Prozessor (CPU)
Staub stellt auch für den Prozessor ein Problem dar. Wenn Staub in einen Server eindringt, behindert er den Luftstrom und verstopft Lüfter und Kühlkörper. Das führt zu einer Überhitzung des Prozessors. Die meisten modernen Server sind thermisch gedrosselt: Wenn der Server zu heiß wird, zwingt er seine Prozessoren zur Drosselung, um Schäden zu vermeiden. Wenn das passiert, kommt es zu spürbaren Leistungseinbußen.
Arbeitsspeicher
Der Arbeitsspeicher ist eine weitere Serverkomponente, die manchmal von Leistungseinbußen betroffen ist. Mehrere Faktoren wirken sich negativ auf den Arbeitsspeicher eines Servers aus und führen zu Leistungsproblemen, Datenverlust oder Problemen mit der Systemstabilität.
Oft werden Speicherprobleme auf übermäßigen Staub oder Vibrationen zurückgeführt. Staub führt dazu, dass Speichermodule keinen Kontakt mit den Sockeln haben, in denen sie installiert sind. Ebenso führen übermäßige Vibrationen manchmal dazu, dass sich Speichermodule lockern und nicht mehr richtig funktionieren. Wie Netzteile und Prozessoren kann auch der Arbeitsspeicher durch übermäßige Hitze oder Stromstöße beschädigt werden.
Storage
Festplatten (HDDs), Solid State Drive (SSDs) und Disk-Arrays gehören zu den Komponenten, die am anfälligsten für Verschleiß sind. Festplatten enthalten sich drehende Medienplatten und motorisierte Köpfe, die sich über die Oberfläche der Platte bewegen. Wie jedes andere mechanische Gerät mit beweglichen Teilen nutzen sich HDDs mit der Zeit ab.
SSDs sind ebenfalls verschleißanfällig, aber auf eine andere Art. Im Gegensatz zu HDDs enthalten SSDs keine beweglichen Teile. Statt Daten auf sich drehenden Platten zu speichern, werden sie in Flash-Speicherzellen abgelegt. Eines der größten Probleme bei der Verwendung von Flash-Storage ist, dass Schreibvorgänge das Medium physisch zerstören. Jedes Mal, wenn Daten geschrieben werden, beeinträchtigt der Schreibvorgang die Zelle. Jede Zelle ist so ausgelegt, dass sie eine bestimmte Anzahl von Schreibvorgängen aushält, bevor sie schließlich ausfällt. Die Anbieter von Flash-Speichern verwenden Verschleißausgleichs- und andere Technologien, um zu verhindern, dass SSDs vorzeitig verschleißen.
Trotz der Mechanismen, die die Haltbarkeit und Langlebigkeit verbessern, verschleißen sowohl SSDs als auch HDDs mit der Zeit und fallen schließlich aus. Solche Ausfälle führen fast immer zu Datenverlusten. Es sei denn, die Festplatte ist Teil eines Festplatten-Arrays, das so konfiguriert wurde, dass es Redundanz bietet.
Obwohl Festplatten-Arrays vor Datenverlust schützen, führt der Ausfall einer Festplatte innerhalb eines solchen Arrays zu einer verringerten Speicherleistung, wenn das Array eine paritätsbasierte Architektur – wie RAID 5 oder RAID 6 – zum Schutz der Daten verwendet. Wenn der Betreiber des Rechenzentrums die ausgefallene Festplatte ersetzt, werden die Paritätsinformationen verwendet, um die neue Festplatte mit Daten zu füllen. Die Leistung kehrt erst dann zur Normalität zurück, wenn dieser Wiederherstellungsprozess abgeschlossen ist.
Andere häufige Ursachen für Hardwareverschleiß
- Paketverlust aufgrund physischer Fehler in der Netzwerk-Switch-Konfiguration
- Bandbreitenüberlastung, weil die an ein Ziel gesendete Datenmenge die Netzwerkkapazität übersteigt
- Erhöhung der Netzwerklatenz durch ein defektes Netzwerkgerät, das die Paketrouten oder -pfade ändert
Umgang mit Verschleiß
Obwohl das Lifecycle-Management von Servern und die Erneuerung der Hardware wichtige Aspekte bei der Verhinderung einer Verschlechterung der Hardware sind, können Rechenzentrumsmanager auch andere Maßnahmen ergreifen. Wenn beispielsweise Daten betroffen sind, sollte ein Unternehmen diese Daten auf funktionierende Hardware übertragen.
Wenn zum Beispiel die Hardware ausfällt, auf der ein AWS-Hypervisor läuft, markieren Amazon Elastic Compute Cloud und OpenSearch Service die Hardware als defekt und verschieben laufende Instanzen auf funktionierende Hardware.
Andere Möglichkeiten, den Hardwareverschleiß anzugehen, sind:
Luftqualität: Rechenzentren sind in der Regel mit Filteranlagen ausgestattet, die Staub abfangen sollen. Dadurch wird verhindert, dass sich Staub in Servern ansammelt und dadurch Netzteile, Prozessoren, Speicher und andere Komponenten beschädigt werden.
Stromversorgungen: Auch Server sind fast immer an eine unterbrechungsfreie Stromversorgung (USV) angeschlossen. Eine USV verfügt über Batterien, die den Betrieb von Servern im Falle eines Stromausfalls aufrechterhalten. Die meisten sind auch als Überspannungsschutz ausgelegt, um zu verhindern, dass die Server durch Stromstöße beschädigt werden. In der Regel sind unternehmenskritische Server auch mit redundanten Stromversorgungen ausgestattet. Diese ermöglichen den Betrieb des Servers, auch wenn die primäre Stromversorgung ausfällt.
Festplattenausfall: Betreiber von Rechenzentren verfügen in der Regel über Protokolle zum Schutz vor Datenverlusten und Leistungseinbußen im Zusammenhang mit Festplattenausfällen. Beispielsweise werden in vielen Rechenzentren die Festplatten in bestimmten Abständen ausgetauscht. Durch diese Strategie der Storage-Auffrischung werden alternde Festplatten ersetzt, bevor sie ausfallen können. Paritätsbasierte Storage-Konfigurationen werden in modernen Rechenzentren meist vermieden, um zu verhindern, dass diese Auffrischungsvorgänge die Leistung des Servers beeinträchtigen.
Überwachung des Zustands: Zur Verschleißvermeidung der Hardware ist die Überwachung des Serverzustands eine wichtige Strategie. Beispielsweise erkennt Überwachsungssoftware ausgefallene Lüfter oder CPUs, die plötzlich mit höherer Temperatur lauten als erwartet. In ähnlicher Weise erkennt Überwachsungssoftware oft einen bevorstehenden Festplattenausfall, indem sie die SMART-Informationen (Self-Monitoring, Analysis and Reporting Technology) der Festplatte betrachtet.
FTP-Übertragung: IT-Teams können das File Transfer Protocol (FTP) für Dateiübertragungen zwischen Systemen zur Datensicherung verwenden, um den Verlust von Daten bei Hardwareausfällen zu verhindern.
Server-Clustering: Server können geclustert werden, um Komponenten auf mehreren physischen Maschinen zu verteilen. Das schafft ein System ohne einen einzigen Ausfallpunkt. Ein Hardware-Cluster kann aktiv-passiv sein. In diesem Fall sind einige redundante Server für die Ausfallsicherung reserviert und führen keine eigenen Anwendungen aus. Ein Cluster kann auch aktiv-aktiv sein. In diesem Fall führen alle Server im Cluster ihre eigenen Anwendungen aus, reservieren aber auch Ressourcen, damit sie gegenseitig Failover-Aufgaben übernehmen können.
RAID-Arrays: Um Daten im Falle von Laufwerksausfällen zu schützen, speichert man mit RAID-Arrays dieselben Daten an verschiedenen Stellen auf mehreren Festplatten oder SSDs. Wenn ein Laufwerk ausfällt, steht das andere weiterhin zur Verfügung.
Ausfall der Hauptplatine: Physische Schaden oder das Erreichen des End-of-Life-Datums können zum Ausfall von Motherboards führen. Die Überwachung von Hauptplatinen und deren Austausch, wenn sie kurz vor dem Ablaufdatum stehen, vermeiden mögliche Ausfälle.