Getty Images/iStockphoto
Data-Center-Netzwerke für Generative KI aufbauen
Netzwerkskalierbarkeit, Durchsatz und Orchestrierung sind einige der Schlüsselelemente, die Unternehmen beim Aufbau von Rechenzentren für generative KI berücksichtigen müssen.
Generative KI erobert die Welt im Sturm und Unternehmen beginnen, nach Möglichkeiten zu suchen, KI-Technologien in ihre Geschäftsprozesse zu integrieren. In einigen Fällen setzen Unternehmen ihr eigenes KI-Fabric- und GPU-Scale-out-Netzwerk in Rechenzentren und privaten Clouds ein.
Der Aufbau von Rechenzentren für generative KI (GenKI oder GenAI) unterscheidet sich aus der Netzwerkperspektive stark von herkömmlichen Rechenzentren – oder sogar von solchen, die für die Unterstützung von High-Performance-Computing (HPC) konzipiert wurden.
Vier Schlüsselaspekte von GenKI-Netzwerk-Fabrics können Unternehmen auf den richtigen Weg bringen, um ein Rechenzentrum für generative KI aufzubauen, das den heutigen und zukünftigen Anforderungen gerecht wird.
1. Die Hälfte der Zeit, die für die Analyse von KI-Trainingsdaten aufgewendet wird, findet im Netzwerk statt.
Trotz der Konzentration auf die gesamte Verarbeitung, die für die Analyse von KI-Trainingsdaten mit Stapeln von Grafikprozessoren erforderlich ist, ist es wichtig zu beachten, dass die Hälfte der Verarbeitung von KI-Daten im Netzwerk erfolgt. Dies stellt die Geschwindigkeit und Agilität, mit der Netzwerke große Datensätze transportieren, in den Vordergrund. Schließlich ist das Tempo einer GenKI-Anwendung nur so schnell wie ihre langsamste Komponente. Wenn es richtig aufgebaut ist, kann das Netzwerk als potenzieller Leistungsengpass eliminiert werden.
Der Aufbau eines hochgradig skalierbaren Netzwerks ist für GenKI-Rechenzentren ebenfalls von entscheidender Bedeutung, da es zukünftige Wachstumskapazitäten ermöglicht. Netzwerk-Switch-Fabrics müssen Hardware enthalten, die sich horizontal und vertikal erweitern lässt. Sie müssen außerdem Netzwerkbetriebssysteme auf Switching-Hardware verwenden, die fortschrittliche Funktionen wie Packet Spraying, Load Awareness und intelligente Verkehrsumleitung enthalten. Diese Funktionen ermöglichen eine automatische Umleitung des Datenverkehrs innerhalb des Netzes und zwischen GPU-Verarbeitungseinheiten, die überlastet werden könnten.
2. Die Anzahl der Arbeitslasten ist geringer, aber der Umfang größer.
Im Gegensatz zu HPC, wo die Netzwerklatenz auf ein extrem niedriges Niveau reduziert wird, muss beim Aufbau von KI-Rechenzentren der Schwerpunkt auf einer hohen Durchsatzkapazität liegen. HPC-Netzwerke sind darauf ausgelegt, Tausende von gleichzeitigen Arbeitslasten zu transportieren, die nur minimale Latenzzeiten benötigen, während die Anzahl der KI-Arbeitslasten weitaus geringer, dafür aber wesentlich größer ist.
Unter dem Gesichtspunkt der Geschwindigkeit ist der Durchsatz wichtiger als die Netzwerklatenz. Für GenKI-Rechenzentren sind die Vorteile der ultraniedrigen Latenz von InfiniBand-Netzwerken, die für HPC verwendet werden, geringer. Der Einsatz von Ethernet-Netzwerken mit höherem Durchsatz könnte aufgrund der höheren Durchsatzkapazität des Standards bald die Norm werden.
3. Netzwerkorchestrierung ist ein Muss.
Angesichts der Komplexität von GenKI-Rechenzentrumsnetzwerken und der Notwendigkeit einer optimierten Leistung und hohen Zuverlässigkeit sollten die GenKI-Netzwerke nicht mit einer herkömmlichen Befehlszeilensyntax und Leistungsüberwachungs-Tools von Drittanbietern verwaltet werden. Stattdessen sollten Unternehmen eine Orchestrierungsplattform einsetzen, die mehrere nützliche Funktionen und Leistungseinblicke bietet, die von Anfang an in die Control-Plane-Architektur integriert sind.
Orchestrierungsplattformen bieten eine Reihe von Vorteilen, die die Verwaltung von Rechenzentren für künstliche Intelligenz erheblich verbessern, darunter die folgenden:
4. Automatisches Erstellen eines Netzwerk-Underlay für das des Rechenzentrum.
Damit entfällt ein Großteil der Komplexität, die mit dem Aufbau eines neuen Netzwerks verbunden ist. Außerdem wird die Zeit erheblich verkürzt, die benötigt wird, um es so weit aufzubauen, dass es für die Erstellung von Netzwerk- und Netzwerksicherheitsrichtlinien bereit ist.
- Intuitive und automatisierte Einrichtung von Netzwerk-Overlays und laufende NetOps-Verwaltung. Orchestrierungsplattformen ermöglichen es Administratoren, über eine grafische Benutzeroberfläche Netzwerk- und Netzwerksicherheitsrichtlinien an einem zentralen Ort zu erstellen und die Befehle automatisch an die Switches im Rechenzentrum zu senden, die sie benötigen. Dies ermöglicht die Umsetzung von Netzwerkrichtlinien ohne komplexe CLI-Befehle. Die Richtlinien werden mit standardbasierten Regeln innerhalb des Systems erstellt, die manuelle Konfigurationsfehler weitgehend ausschließen.
- Erhöhte Transparenz der Leistung und des Zustands. Orchestrierungs-Tools sammeln und analysieren auch Switch-Zustands- und Leistungsdaten von Netzwerk-Switching-Hardware mit verschiedenen traditionellen und modernen Methoden. Das Sammeln und Analysieren von Netzwerktelemetriedaten ist die neueste Errungenschaft im Bereich der Zustandsanalyse. Hier wird der Switch so konfiguriert, dass er Leistungsmessungen in Echtzeit über spezielle Protokollstandards wie gNMI und NETCONF an den Orchestrator sendet. Diese Protokolle sind im Vergleich zu älteren Überwachungsprotokollen wie SNMP (Simple Network Management Protocol) weitaus leistungsfähiger und helfen bei der proaktiven Identifizierung von Leistungsproblemen, die behoben werden können, bevor es zu Verlangsamungen oder Ausfällen im Netzwerk kommt.
Die 3 Säulen des Erfolgs von Generative-KI-Rechenzentren
Verkehrsströme von künstlicher Intelligenz unterscheiden sich stark von herkömmlichen Verkehrsströmen. Da die generatibe kümstliche Intelligenz erst dann wachsen kann, wenn die Analyse jedes Pakets eines Trainingsdatensatzes abgeschlossen ist, ist die Zeit von entscheidender Bedeutung. Um Effizienz in GenKI-Fabrics zu erreichen, müssen Netzwerkarchitekten die drei Säulen des Erfolgs von GenKI-Rechenzentren anstreben:
- Ausreichender Netzwerkdurchsatz.
- Automatisierte Optimierung.
- Granulare Einblicke in die Netzwerkleistung.
Nur dann wird die zugrunde liegende Netzwerkstruktur die Grundlage für den Erfolg von GenKI-Bestrebungen in Unternehmen bilden.