cherezoff - stock.adobe.com
Mit dem richtigen Netzwerk in die KI-Ära einsteigen
KI-Workloads stellen hohe Anforderungen an die Infrastruktur hinsichtlich Performance, Kapazität und Latenz. Das Netzwerk hat eine Schlüsselrolle, meint Erwin Breneis von Juniper.
Die generative KI hat durch ihre jüngsten Fortschritte eine hohe Aufmerksamkeit erlangt. Viele Unternehmen beschäftigen sich heute mit KI und maschinellem Lernen (ML). Rechenzentren sind dabei das Fundament der künstlichen Intelligenz (KI) und Rechenzentrumsnetzwerke spielen eine entscheidende Rolle bei der Verbindung kostspieliger GPU-Server, die die rechenintensive Verarbeitung beim KI-Training durchführen.
Das KI-Training ist der technologisch anspruchsvollste Teil des gesamten KI-Prozesses, insbesondere bei komplexen Deep-Learning-Modellen, die große Datenmengen und eine verteilte Verarbeitung durch GPUs erfordern, um eine optimale Leistung zu erzielen. Das Training eines hochmodernen Bilderkennungsmodells kann zum Beispiel Millionen von gelabelten Bildern erfordern. Wenn das Netzwerk einen Engpass darstellt, wird kostenintensive Rechenzeit verschwendet. Es geht also um den Aufbau eines sogenannten Loss-less Network. Paketverlust (Packet Loss) ist dabei nicht der wichtigste Parameter, Überlastungen/Staus (Congestion) beziehungsweise deren Verhinderung sind ebenso zu beachten. Daher müssen die GPUs in einer hochperformanten Struktur miteinander verbunden werden, um das Training zu beschleunigen. Diese dedizierte Struktur wird als Backend-Fabric bezeichnet, die sowohl GPU-Training-Cluster als auch Speichernetzwerke unterstützt und eine leistungsstarke Vernetzung mit geringer Latenz für jeden Service bietet. Sobald das Modell trainiert ist, wird es in die KI-Inferenzphase überführt, in der es in einer realen Umgebung arbeitet, um Prognosen oder Entscheidungen auf der Grundlage neuer, unbekannter Daten zu treffen. Die KI-Inferenz-Cluster sind dabei mit Frontend-Netzwerken verbunden, die eine Verbindung zur Außenwelt herstellen, um Inferenzanfragen etwa von Benutzern oder IoT-Geräten zu bearbeiten.
Gehen Unternehmen den KI-Weg, sollten sie vor allem die Frage stellen, wie sie einen Cluster für KI- und ML-Workloads performant und kosteneffizient aufbauen können. Als Kostentreiber und limitierende Faktoren müssen dabei zunächst GPUs und InfiniBand ins Blickfeld rücken.
GPUs als Kostentreiber
Moderne KI- und ML-Cluster bestehen aus Hunderten, manchmal auch aus Tausenden von GPUs. Sie werden benötigt, um die massive, parallele Rechenleistung bereitzustellen, die zum Trainieren moderner KI-Modelle erforderlich ist.
GPUs müssen in Clustern arbeiten, um effizient zu sein. Das Skalieren von Clustern verbessert zwar die Effizienz des KI-Modells, erhöht jedoch auch die Kosten. Die Reduzierung der Job-Abschlusszeit (Job Completion Time, JCT) und die Minimierung beziehungsweise Eliminierung der Tail-Latenz sind hier die Schlüssel zu Kosteneinsparungen und auch zu mehr Geschwindigkeit. Die JCT betrifft die Zeit, die für das Training des KI-Modells benötigt wird, und die Tail-Latenz die Wartezeit des Systems bis zum Abschluss der Berechnungen durch die letzte GPU, bevor der nächste Trainingslauf startet.
Anbieterunabhängig durch Ethernet
Im Hinblick auf die notwendige Optimierung der GPU-Performance gewinnt vor allem das Ethernet als offene Netzwerkalternative für KI-Rechenzentren zunehmend an Bedeutung. In der Vergangenheit war InfiniBand, eine proprietäre Hochgeschwindigkeits-Netzwerktechnologie mit niedriger Latenz, oft die erste Wahl aufgrund der schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen. Inzwischen wird aber vermehrt Ethernet genutzt, da es Vorteile hinsichtlich des Betriebs und der Kosten bietet. Im Unterschied zu einem proprietären InfiniBand-Netzwerk gibt es viele Netzwerkprofis, die ein Ethernet aufbauen und betreiben können.
Ethernet ist damit eine Lösung, um die spezifischen Anforderungen von KI-Anwendungen zu bewältigen – gerade dank eines hohen Datendurchsatzes und einer niedrigen Latenz. Die Netzwerktechnologie entwickelt sich kontinuierlich weiter, aktuelle Neuerungen betreffen etwa 800 GbE und Data Center Bridging (DCB), die die Geschwindigkeit, Zuverlässigkeit und Skalierbarkeit erhöhen. Zu den Verbesserungen gehören auch das Congestion Management, das Load Balancing, die minimierte Latenz für die JCT-Optimierung sowie eine vereinfachte Verwaltung und Automatisierung. Damit sind Ethernet-Fabrics ideale Architekturen für den unternehmenskritischen KI-Datenverkehr.
Die Struktur einer leistungsfähigen Netzwerk-Fabric
Für die Vernetzung von KI-Rechenzentren können verschiedene Fabric-Designs verwendet werden. Für die Optimierung des Trainings-Frameworks ist eine Any-to-Any Non-Blocking Clos Fabric zu empfehlen. Sie wird mit einer konstanten Netzwerkgeschwindigkeit von 400 GBit/s bis zu 800 GBit/s von der NIC zur Leaf- Spine-Ebene aufgebaut. Je nach Modellgröße und GPU-Skala kann eine zweischichtige, dreistufige Non-Blocking Fabric oder eine drei-schichtige, fünfstufige Non-Blocking Fabric verwendet werden.
Darüber hinaus erhöhen weitere Designkonzepte die Zuverlässigkeit und Effizienz der gesamten Fabric. Dazu gehören richtig dimensionierte Fabric Interconnects mit der optimalen Anzahl von Links und die Fähigkeit, Ungleichgewichte des Datenstroms zu erkennen und zu korrigieren, um eine Überlastung und Paketverluste zu vermeiden. Explicit Congestion Notice (ECN) mit Data Center Quantized Congestion Notice (DCQCN) und prioritätsbasierter Datenstromsteuerung gewährleisten hier eine verlustfreie Übertragung.
Um Überlastungen zu reduzieren, wird am Switch ein dynamisches und adaptives Load Balancing eingesetzt. Beim dynamischen Lastausgleich werden die Datenströme lokal am Switch umverteilt, um eine gleichmäßige Auslastung zu erreichen. Der adaptive Lastausgleich überwacht die Weiterleitung von Datenströmen und die Next-Hop-Tabellen, um Engpässe zu identifizieren und den Datenverkehr von überlasteten Pfaden wegzulenken.
Wenn eine Überlastung nicht zu vermeiden ist, werden die Anwendungen durch ECN frühzeitig benachrichtigt. Leaf-Spine-Switches aktualisieren dann ECN-fähige Pakete, die die Sender über die Überlastung informieren, sodass diese die Übertragung verlangsamen, um Paketverluste zu vermeiden. Reagieren die Endpunkte nicht rechtzeitig, ermöglicht die prioritätsbasierte Datenstromsteuerung den Ethernet-Empfängern eine Rückmeldung über die Pufferverfügbarkeit an die Sender. Schließlich können Leaf-Spine-Switches in Zeiten der Überlastung den Datenverkehr auf bestimmten Verbindungen auch unterbrechen oder drosseln, um die Überlastung zu verringern und Paketverluste auszuschließen, was verlustfreie Übertragungen für bestimmte Datenverkehrsklassen ermöglicht.
„Auf jeden Fall werden Rechenzentrumsnetzwerke auch in den kommenden Jahrzehnten eine wichtige Rolle spielen, wenn die Grenzen der KI weiter erforscht werden. Unverzichtbar sind dabei KI-Infrastrukturlösungen, die eine hohe Performance zur Optimierung der GPU-Effizienz bieten.“
Erwin Breneis, Juniper Networks
Die Automatisierung ist der letzte Baustein einer effektiven KI-Lösung für Rechenzentren. Sie wird beim Design, der Bereitstellung und der Verwaltung des KI-Rechenzentrums eingesetzt. Damit kann der Lebenszyklus des KI-Rechenzentrums von Tag 0 bis Tag 2+ automatisiert werden. Das Ergebnis sind wiederholbare und kontinuierlich validierte KI-Rechenzentrumsdesigns und -bereitstellungen, die nicht nur menschliche Fehler eliminieren, sondern auch Telemetrie- und Datenstromdaten nutzen, um die Performance zu optimieren, die proaktive Fehlerbehebung zu erleichtern und Ausfälle zu vermeiden.
KI wird zunehmend Mainstream, aber Unternehmen und die Gesellschaft stehen noch am Anfang dessen, was letztlich möglich sein wird. Auf jeden Fall werden Rechenzentrumsnetzwerke auch in den kommenden Jahrzehnten eine wichtige Rolle spielen, wenn die Grenzen der KI weiter erforscht werden. Unverzichtbar sind dabei KI-Infrastrukturlösungen, die eine hohe Performance zur Optimierung der GPU-Effizienz bieten. Eine zentrale Basis bieten hier Ethernet-Fabrics mit innovativen Netzwerktechnologien, die die Datenübertragung beschleunigen sowie verlustfreie Übertragungen ermöglichen – und damit die KI-Revolution vorantreiben können.
Über den Autor:
Erwin Breneis ist Global Business Development Manager für DC Sales bei Juniper Networks. Der Netzwerkausrüster hat eine Reihe von Ethernet-Switches unterschiedlicher Leistungsklassen im Angebot, jedoch keine InfiniBand-Produkte.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.