envfx - stock.adobe.com

Welche Rolle spielt CXL für künstliche Intelligenz?

Angesichts der konkurrierenden Nvidia-Komponenten hat CXL es schwer, seinen Platz in KI zu finden. Der Interconnect könnte aber Firmen helfen, das Beste aus ihren GPUs herauszuholen.

Auf der Nvidia GTC 2024 standen GPUs und künstliche Intelligenz im Mittelpunkt. Aber eine andere Technologie, die dabei helfen könnte, GPU-Engpässe zu lösen, war nicht vertreten: Compute Express Link, kurz CXL. CXL wird seit Jahren als eine Möglichkeit angesehen, das Memory für Rechenzentrumsgeräte zu erhöhen, auch für Beschleuniger wie GPUs. Aber wenn die GTC 2024 ein Indikator ist, scheint CXL in der KI-Ära unwichtig zu sein.

Abseits der Konferenzbühne ist die Debatte über die Rolle von CXL in der künstlichen Intelligenz (KI) jedoch vielschichtiger. Einige Marktbeobachter argumentieren, dass CXL angesichts der mangelnden Unterstützung durch Nvidianur einen begrenzten Platz in der Diskussion hat. Andere, darunter der Speichersoftware-Anbieter MemVerge, der Speicherlieferant Micron und der Hardware-Anbieter Supermicro, beweisen, dass es möglich ist.

Auf der GTC demonstrierten diese drei Hersteller, wie CXL die GPU-Auslastung großer Sprachmodelle (LLM) erhöhen kann, ohne dass weitere Prozessoreinheiten hinzugefügt werden müssen. CXL erreicht dies durch die Erweiterung des GPU-Memory-Pools, um die Memory-Nutzung mit hoher Bandbreite (High-Bandwidth Memory, HBM) zu geringeren Kosten zu erhöhen, als die Infrastruktur mit mehr GPUs oder mehr HBM zu skalieren. Der Kompromiss liegt jedoch in der Leistung.

Nvidia hat eine andere Richtung eingeschlagen. Der GPU-Hersteller entwickelte sein eigenes NVLink, ein Interconnect, das speziell für eine Verbindung mit hoher Bandbreite zwischen seinen GPUs konzipiert wurde. CXL bietet zwar allgemeine Funktionen für die Erweiterung des Arbeitsspeichers und die gemeinsame Nutzung des Prozessoren-Memory, ist aber in einigen der begehrtesten GPUs nicht vorhanden.

Ist CXL für KI sinnvoll?

CXL kam erstmals 2019 auf den Markt und wurde als potenzielle Möglichkeit zur Überwindung von Silo-Memory und der Memory-Beschränkungen von CPUs angesehen. Seitdem ist die Zahl der Anwendungsfälle für CXL gewachsen, und der Interconnect kann nun die gemeinsame Nutzung von Memory durch mehrere Hosts ermöglichen sowie erweiterte Bandbreiten und Gerätefunktionen bieten.

Auf dem Memory Fabric Forum 2024 stellte MemVerge CXL als potenzielle KI-Fabric vor, die in der Lage ist, Rechen-, Netzwerk- und Speichersysteme zu verbinden. Der Hersteller, der zusammen mit Nvidia Mitglied des CXL-Konsortiums ist, stellt Software her, die eine Schlüsselrolle bei der Entwicklung von CXL-Anwendungsfällen spielt.

Im traditionellen Rechenzentrum oder der x86-Ära sind x86-CPU-Server über eine Ethernet-Netzwerkstruktur mit dem Storage verbunden. In der KI-Ära hingegen werden GPU-basierte Server über HBM mit dem Speicher verbunden sein und wahrscheinlich NVLink oder Ultra Ethernet als Verbindung zwischen GPUs und Memory-Pools verwenden. Somit könnte CXL eine Rolle als KI-Fabric spielen.

Laut dem Forschungsunternehmen SemiAnalysis wird CXL jedoch nicht den Sprung zur KI schaffen. Die Analysten nehmen an, dass CXL zwar potenzielle Vorteile für Server im Allgemeinen mit sich bringt, diese Vorteile aber nicht auf Nvidia-GPUs übertragbar sind, und zwar aufgrund des begrenzten Platzes der Nvidia-GPUs für Konnektivität und Nvidias Präferenz des eigenen NVLink.

I/O für Chips kommen von den Seiten des Chips, und zwei der vier Seiten von Nvidia-GPUs sind für HBM vorgesehen. Damit bleiben zwei Seiten für die Konnektivität übrig, bei denen Nvidia eher sein eigenes NVLink und NVLink-C2C – ein Interconnect zu Grace-CPUs – als CXL wählen wird. Beide Protokolle sind Eigentum von Nvidia und ermöglichen eine größere Bandbreite als CXL, das ein offener Standard ist. Das trifft derzeit nur auf die GPU-zu-GPU-Konnektivität für KI-Workloads zu, während CXL ein breiteres Spektrum an Möglichkeiten bietet. Die GPU-zu-GPU-Kommunikation war nicht der ursprüngliche Entwurf oder Anwendungsfall des CXL-Standards. Stattdessen zielt CXL auf Bandbreiten- und Kapazitätserweiterung ab.

Nvidia unterstützt sowohl NVLink für die Verbindung mit anderen Nvidia-GPUs als auch PCIe für die Verbindung mit anderen Geräten, aber das PCIe-Protokoll könnte für CXL verwendet werden. Tatsächlich stellt der konkurrierende GPU-Anbieter AMD Chips her, die fast ausschließlich PCIe verwenden. Wie bei den Nvidia-GPUs wäre es denkbar, dass auf dem künftigen Markt beide Interconnects nebeneinander bestehen.

Mehr als eine Einsatzmöglichkeit

Der Fokus auf die GPU-zu-GPU-Kommunikation, die für die generative KI wichtig ist, ist zu kurz gedacht, da es nie das anvisierte der CXL-Technologie war. Vielmehr war CXL nicht nur auf die Lösung des GPU-Problems ausgerichtet.

Es gibt zwei Hauptaspekte der generativen KI. Der erste ist das Training, das eine erhebliche Bandbreite erfordert, die oft von GPUs bereitgestellt wird, um sicherzustellen, dass große Datenmengen mit maximaler Geschwindigkeit parallel gelesen werden. Der zweite Aspekt ist das Inferencing, bei dem trainierte Sprachmodelle auf Retrieval-Augmented Generation (RAG) zurückgreifen können, ein KI-Framework, das die Verwendung zusätzlicher Datensätze zur Verbesserung der Genauigkeit ermöglicht.

Eine der RAG-Technologien ist die Vektordatenbank, in der hochdimensionale Daten wie Bilder und Text gespeichert werden können, die bei Bedarf ohne zusätzliches Training zur Aktualisierung der Abfrage verwendet werden können. Die Datenbanken laufen in CPUs und im Memory und je mehr Memory verfügbar ist, desto leistungsfähiger die KI-Umgebung.

Mit CXL kann der Memory-Platz erweitert werden, so dass die gesamte Vektordatenbank in einer In-Memory-Konfiguration läuft. Die Ausführung einer Datenbank im Memory bedeutet, dass zum Abrufen von Daten nicht auf das Storage zugegriffen werden muss, wodurch die Geschwindigkeit der Datenbank erhöht wird. Er wies jedoch darauf hin, dass generative KI derzeit einen kleinen Teil der Gesamtausgaben für Rechenzentren ausmacht, während CXL in größerem Umfang zur Erweiterung des Memory in Rechenzentren eingesetzt werden kann, was niedrigere Kosten und eine bessere Arbeitsspeichernutzung ermöglicht.

Darüber hinaus gibt es neben des KI-Einsatzszenarios auch Vorteile in der Memory-Erweiterung und dem Memory-Pooling von CXL, insbesondere bei der massiven Steigerung der DRAM-Auslastung. Diese Funktionen könnten jedem Cloud-Anbieter Einsparungen in Milliardenhöhe ermöglichen.

Noch ist es zu früh, CXL von KI-Workloads auszuschließen, da sich KI so schnell weiterentwickelt und immer noch neue Anwendungsfälle entdeckt werden. Ein solcher Anwendungsfall könnte die Erweiterung des HBM-Pools auf den GPUs sein, um die Auslastung des Prozessors aufrechtzuerhalten.

HBM-Erweiterung

HBM ist ein gestapelter synchroner DRAM, der in der Regel an einen Prozessor, eine CPU, einen anwendungsspezifischen integrierten Schaltkreis oder an eine GPU angeschlossen ist, anstatt sich in der Spur (Lane) daneben zu befinden. Das Stacking-Design erhöht die Bandbreite und senkt den Stromverbrauch. Allerdings ist HBM in seiner Kapazität begrenzt und teuer. Das Interesse an HBM hat zugenommen, weil die KI-Bandbreite der Schlüssel zum Erfolg ist und HBM die höchstmögliche Bandbreite bietet.

CXL könnte jedoch die GPU-Kapazität über die Grenzen von HBM hinaus erweitern. Auf der GTC demonstrierten die Anbieter MemVerge, Micron und Supermicro das Potenzial zur Überwindung des Memory-Wall-Problems in der KI, das heißt der begrenzten Kapazität und Bandbreite von Memory-Übertragungen im Verhältnis zur Größe des Memory auf der GPU.

Das Wachstum der Größe des Modells und der Rechenleistung der GPUs übersteigt oft die Arbeitsspeicherkapazität der GPUs. Eine Lösung besteht darin, die Anzahl der verwendeten GPUs zu erhöhen. Dies ist jedoch sowohl teuer als auch abhängig von verfügbaren Recheneinheiten, die derzeit stark nachgefragt werden. Eine andere Lösung ist die Auslagerung oder Erweiterung des Memory durch CXL, was billiger wäre und den Bedarf an mehr GPUs oder dichterem HBM überflüssig macht.

Die Umstellung auf langsameren CXL-Speicher wird die Leistung im Vergleich zu HBM beeinträchtigen. Die kombinierte Technologie von MemVerge, Micron und Supermicro zeigt jedoch, dass die GPU-Auslastung deutlich höher ist, was zu einer schnelleren Erledigung von Aufgaben führt.

Es ist anzumerken, dass die in dem oben erwähnten Setup verwendeten GPUs GDDR6-Speicher (Graphics Double Data Rate 6) und nicht HBM-Speicher nutzten. Unabhängig gab das Unternehmen MemVerge an, dass der Effekt des erweiterten Memory derselbe sei.

Erfahren Sie mehr über Storage Performance