archy13 - stock.adobe.com
So überbrücken Sie die Wartezeit für leistungsstärkere Chips
Die Rechenzentrumsbranche steht unter dem Druck, effizientere Infrastruktur zu schaffen. Das gilt auch für Chipsatzhersteller – doch die nötigen Innovationen sind Jahre entfernt.
Als IBM im Mai 2021 den weltweit ersten 2nm-Chipsatz vorstellte, der in der Lage ist, bis zu 50 Milliarden Transistoren auf einem Chip von der Größe eines Fingernagels unterzubringen, sahen viele eine goldene Zukunft am Horizont schimmern. Es wird aber noch einige Jahre dauern, bis sich die Vorteile von 2nm auf die Leistungsdichte, Effizienz und Nachhaltigkeit von Rechenzentren auswirken.
Gerüchten zufolge wird ein 3nm-Chip von Intel erst mit Lunar Lake im Jahr 2024 erscheinen. Danach plane Intel einem Chip der 17. Generation für Client-Geräte, Nova Lake, mit einer erhofften 50-prozentigen Steigerung der CPU-Leistung und der größten Änderung der Architektur seit 2006 – ungefähr zeitgleich mit Diamond Rapids für den Server im Jahr 2025.
Doch wie gesagt: das sind nur Gerüchte. Der marktbeherrschende Chip-Riese spielt seine Karten weiterhin langsam aus und hält sich bedeckt.
Intel lehnte es ab, für diesen Beitrag mit ComputerWeekly zu sprechen, doch Daniel Bizo, Leiter der Uptime-Forschungsabteilung, geht ebenfalls davon aus, dass die Leistungsverbesserungen eher schrittweise als revolutionär sein werden.
„Das geringe Tempo liegt in der Natur der Halbleiterphysik.“, sagt Bizo. „Das ist kein neues Phänomen. Die Entwicklung läuft allgemein langsamer als bei der physikalischen Dichte.“
Ab 2022 werden leistungsstärkere Sapphire Rapids 10nm Xeon-Chips im Multi-Tile-Chiplet-Design erwartet, die einen integrierten, dynamischen Speicher mit hoher Bandbreite für eine höhere Kapazität und eine näher am Prozessor liegende Datenspeicherung enthalten. Das wird für bestimmte Workloads hilfreich sein, zum Beispiel solche, die von geringeren Latenzen profitieren.
Die Intel-Roadmap, die Mitte 2021 inoffiziell auf Reddit gepostet wurde, deutet auf eine zehnprozentige CPU-Leistungssteigerung im Jahr 2022 mit Raptor Lake hin, gefolgt von einem „echten Chiplet- oder Kacheldesign“ in Meteor Lake, um so gut wie möglich mit AMD und Apple Schritt zu halten.
Der Xeon Sapphire Rapids soll 56 Kerne, 112 Threads und eine thermische Leistung (TDP) von bis zu 350 Watt bieten. Es wird erwartet, dass der Hauptkonkurrent AMD mit seinen EPYC Genoa-Prozessoren bis zu 96 Kerne und 192 Threads bei einer TDP von bis zu 400 W sowie verbesserten Cache-, IO-, PCIe-Lanes und DDR5-Funktionen anbieten wird.
Es könnte also noch einige Zeit dauern, bis Chipsätze auf dem Markt in der Lage sind, den Innovationsdruck in der Rechenzentrumsbranche zu bedienen.
Bizo fügt hinzu: „Wenn man immer mehr Kerne integriert, ist es schwierig, mit dem Speicher Schritt zu halten. Derzeit reagiert man mit dem Hinzufügen von Speicherkanälen, doch ab einem bestimmten Punkt wird das teuer. Man braucht dann Logikplatinen mit viel mehr Verdrahtung, sonst gehen einem die Pins aus.“
Überarbeitung des Software-Stacks
Die Versorgung der Prozessoren mit Daten, ohne noch mehr Speicherkanäle und -module hinzuzufügen, dürfte sich als der effizientere Weg erweisen, um Anwendungen mit zusätzlicher Bandbreite zu bedienen. Uptime ist jedoch auch der Ansicht, dass das Prüfen und Überarbeiten des Software-Stacks von entscheidender Bedeutung ist, um Leistung und Effizienz mit den neuesten Chips zu steigern.
„Mitte der 2020er Jahre werden die neuen Chips nicht wirklich viel Aufregendes bieten. Die Leute werden nicht darum herum kommen, ihren Anwendungs-Stack und die Art und Weise, wie sie die Infrastruktur betreiben, zu überdenken“, sagt Bizo.
"Sie können Effizienzgewinne erzielen, wenn Sie Ihre Praktiken in Bereichen wie Workload-Konsolidierung und Softwarevirtualisierung ändern – mit viel mehr virtuellen Maschinen auf demselben Server oder vielleicht mit Containern."
Bizo merkt an, dass die Skylake-Generation skalierbarer Serverchips aus dem Jahr 2017, die in 14nm gefertigt werden, im Leerlauf weniger Leistung aufnehmen, als die neuesten Chips von heute.
Anthony Milovantsev, Partner bei der Technologieberatungsfirma Altman Solon, ist der Ansicht, dass wir in absehbarer Zukunft fest im Standardparadigma von Siliziumsubstrat, CMOS-Transistoren und Von-Neumann-Architektur verbleiben werden.
Er fügt hinzu, dass das Quanten-Computing zwar für viel Aufruhr sorgt, doch die Anwendungsfälle, für die es sich eignet sind nur eine kleine Menge der Probleme, mit der unsere aktuelle Hardware überfordert ist. Rechenzentren, die eine Quantenmaschine beherbergen, werden außerdem ganz anders aussehen, vielleicht mit kryogener Kühlung.
„Wenn sie überhaupt Quantenkapazitäten benötigen, werden normale Unternehmen diese mit ziemlicher Sicherheit als Dienstleistung in Anspruch nehmen, statt selbst Quantencomputer zu betreiben.“, sagt Milovantsev. „In naher Zukunft werden Verbindungshalbleiter interessante Eigenschaften wie höhere Taktraten bieten. Sie sind schon eine Weile auf dem Markt, weisen aber derzeit erhebliche Nachteile gegenüber Siliziumdioxid auf. Auch sie werden demnach wohl eher ein Nischenprodukt bleiben.“
Inkrementelle Verbesserungen
Milovantsev stimmt also mit Bizo überein, dass die Chip-Innovation wahrscheinlich auf fortgesetzte inkrementelle Verbesserungen bei Transistor-Prozessknoten wie 3nm sowie auf Innovationen wie Gate-Allaround-RibbonFETs oder neue Die-Packaging-Methoden wie 2,5D mit Silizium-Interposern oder echtem 3D-Die-Stacking angewiesen sein wird.
Er verweist auf Arm/RISC für die Entwicklung von Rechenzentrumschips mit einem besseren Preisleistungsverhältnis oder für Nischen-HPC-Workloads. Auf diesen Weg setzen Hyperscaler wie Amazon Web Services (AWS), die mit Graviton auf Arm/RISC umsteigen, oder auf Nvidias angekündigte Grace-CPU für High-Performance-Computing (HPC).
„Das Nettoergebnis all dessen ist jedoch nur eine marginale Reduktion der Leistungsaufnahme auf Chipebene“, sagt Milovantsev. „Tatsächlich ist das Hauptergebnis eher eine höhere Leistungsdichte, da man mehr Transistoren in kleine Formfaktoren packt, um den ständig wachsenden Bedarf an Rechenleistung zu decken. Das Problem der Leistungsdichte – und damit der Kühlung von Rechenzentren – wird mit der Zeit immer drängender werden.
Früher brauchte man die hohen Leistungsdichten und die robuste Kühlung wahrscheinlich nicht, es sei denn, man war ein Hyperscaler oder ein Rechenzentrum, das Infrastructure-as-a-Service (IaaS) oder Kryptomining unterstützte. Natürlich ändern sich die Dinge in dem Maße, in dem Unternehmen zunehmend Analysen, Big Data und maschinelles Lernen nutzen.
„High-End-Rechenzentrums-CPUs von Intel und AMD hatten in der Vergangenheit TDPs im Bereich von 100-200 W.“, sagt Milovantsev. „Die aktuellen Top-End-CPUs AMD EPYC oder Intel Ice Lake liegen bereits bei über 250 Watt, und die Intel Sapphire Rapids Ende 2022 werden bei 350 Watt liegen.“
Er rät, explizit die richtigen Anwendungen mit der richtigen Hardware mit den richtigen Kühl- und Stromversorgungssystemen in der richtigen Art von Halle oder Einrichtung zu verknüpfen. Unternehmen werden zunehmend Chips mit höheren TDP-Hüllen nachfragen und kaufen – aber werden sie sie auch wirklich brauchen?
Rechenzentren sollten ihre Optionen bei der Kühlung prüfen und wissen, wie sie Strom mit höherer Leistung über moderne Stromschienen leiten. Außerdem sollten sie recherchieren, welche Serverüberwachungs-Tools zu ihrer neuen Infrastruktur passen.
Nigel Gore, Global High Density and Liquid Cooling Lead bei Vertiv, weist darauf hin, dass Rechenzentren in der Vergangenheit für eine Rack-Leistungsdichte von 3 bis 5 kW ausgelegt waren, die heutigen Hochleistungssysteme jedoch die 10- bis 20-fache Leistungsdichte unterstützen.
„Chip-Anbieter sprechen immer über die Leistung pro Watt, wobei jede einzelne Weiterentwicklung und Roadmap auf einen Leistungszuwachs gegenüber der vorherigen Generation abzielt", sagt Gore. „Sie benötigen aber einen ausreichend starken Luftstrom und einen Kühlkörper, um diese Wärmemenge abzuführen, und Sie müssen auch die Luftfeuchte kontrollieren.“.
Heutzutage wird oft am oberen Ende der Betriebsparameter gearbeitet, weshalb Flüssigkühllösungen immer mehr an Bedeutung gewinnen, vor allem im oberen Bereich, und auch Intel hält die Flüssigkühlung für neuere Chipsatzdesigns für wichtig.
Wie wir gesehen haben, sehen diese Zuwächse für die nächsten Jahre eher bescheiden aus.
Gore empfiehlt außerdem, ein Auge auf das GPU-ähnliche Beschleunigungsmodul zu werfen, das von Mitgliedern des Open Compute Project entwickelt wird:
„Es wird viele Kombinationsmöglichkeiten geben, je nachdem, wie [die Entwickler] das Leistungssystem verpacken“, sagt er. „Es wird ASICs und Hochgeschwindigkeitsverbindungen für den Speicher enthalten, und es ist auf hohe Dichte und Leistung ausgelegt, um Automatisierung und maschinelles Lernen zu unterstützen.
Sie können acht dieser Geräte in einen Server einbauen. Multiplizieren Sie sie mit ihrem TDP-Wert – das sind acht mal 700 W. In einem Server haben Sie eine Wärmedichte von 5,6 kW.“
Fortgeschrittene Anwendungen
In Ihrem Rechenzentrum brauchen Sie vielleicht noch keine Hardware für maschinelles Lernen, künstliche Intelligenz und anspruchsvolle HPC-Anwendungen; Ihnen reichen niedrigere Leistungsdichten. Die Zahl der Unternehmen, die in diese Technologien einsteigen möchte, wird jedoch wahrscheinlich eher steigen.
„Mitte 2020 haben wir High-Density-Racks mit 30-35 kW gesehen“, sagt Gore. „Sehr schnell, nach sechs Monaten, stieg die Leistung auf 45 kW, und in diesem Jahr begannen wir zu sehen, wie Designberater über die Unterstützung von Dichten von 60 kW sprachen.“
Fausto Vaninetti, Technical Solutions Architect für Cloud-Infrastruktur und Software bei Cisco, merkt an, dass es sinnvoll sein kann, sich auf Standalone- oder modulare Server zu konzentrieren, die genügend Platz auf der Hauptplatine für die Luftzirkulation und die Unterbringung von Kühlkörpern bieten, und dabei auf die Effizienz von Lüftern und Netzteilen zu achten, während Sie auf neue Chipsatzdesigns warten.
Schließlich entwickelt sich nicht nur die CPU-Technologie weiter, sondern auch der Energiebedarf.
Beschleunigungs- und Spezialgeräte werden ebenfalls immer häufiger eingesetzt und erfordern besondere Aufmerksamkeit. GPUs oder persistente Speichermodule haben zum Beispiel einen hohen Strom- und Kühlungsbedarf, sagt Vaninetti.
„Die skalierbaren Intel Xeon Platinum 8380 Prozessoren haben einen TDP von 270W, der AMD EPYC 7763 einen TDP von 280W, und es wird erwartet, dass die CPUs der nächsten Generation die Grenze von 350W überschreiten werden“, fügt er hinzu. „Die Unterstützung von leistungsfähigeren CPUs ist entscheidend, um eine ausgewogene Konfiguration von sechs bis acht GPUs oder Pools von persistentem Speicher an einen Server anschließen zu können.“
AMDs sehr hohe PCIe-Lane-Anzahl ist am nützlichsten in Rack-Servern, die Ressourcen wie viele NVMe-Laufwerke oder PCIe-Karten anschließen können. Im Laufe des nächsten Jahrzehnts werde die Flüssigkeitskühlung eine Technologie sein, die zur Unterstützung höherer Leistungsdichten unerlässlich wird – abhängig von den individuellen Einschränkungen des Rechenzentrums, wie er betont.
„Optionen auf Gehäuseebene oder vielleicht auf Rack-Ebene ermöglichen es dem Kunden, seine bestehende Luftkühlung auf Rechenzentrumsebene beizubehalten. Die andere wichtige Überlegung, wenn es um Serverfarmen und die dazugehörige Ausrüstung geht, ist die Art und Weise, wie man sie verwaltet und betreibt.“