putilov_denis - stock.adobe.com
Was Sie bei Netzwerken für KI-Workloads beachten müssen
Herkömmliche Netzwerke und Netzwerke für Hochleistungsrechner können KI-Workloads nicht angemessen unterstützen. Daher müssen IT-Planer spezielle Netzwerke für KI aufbauen.
Der rasante Aufstieg der KI verdeutlicht den Bedarf an leistungsstarken und effizienten Netzwerken zur Unterstützung von KI-Workloads und den Datenmengen, die für deren Training nötig sind.
Data Center, die für KI-Workloads entwickelt wurden, haben andere Anforderungen als ihre konventionellen Gegenstücke und sogar solche für High-Performance-Computing (HPC). KI-Workloads verlassen sich nicht ausschließlich auf Legacy-Serverkomponenten. Stattdessen sollte die Rechen- und Storage-Hardware GPUs, Data Processing Units (DPU) und smartNICs integrieren, um KI-Training und -Workloads zu beschleunigen.
Einmal integriert, müssen Netzwerke diese Infrastrukturkomponenten zusammenfügen und Arbeitslasten mit unterschiedlichen Parametern und Anforderungen bewältigen. Daher müssen Data-Center- und Cloud-Netzwerke, die für KI konzipiert sind, eine Reihe einzigartiger Bedingungen erfüllen.
Um KI-Datenströme zu unterstützen, müssen Netzwerktechniker kritische KI-Workload-Anforderungen berücksichtigen, zum Beispiel einen hohen Durchsatz und dichte Port-Konnektivität. Um diese Anforderungen zu erfüllen, müssen sie Data-Center-Netzwerke mit der richtigen Konnektivität, den richtigen Protokollen, der richtigen Architektur und den richtigen Verwaltungstools einrichten.
Netzwerkanforderungen für KI-Workloads
KI-Datenströme unterscheiden sich von Client-Server-, HCI- (hyperkonvergente Infrastruktur) und anderen HPC-Architekturen. Die drei wichtigsten Anforderungen an KI-Netzwerke sind:
- Geringe Latenz, hoher Netzwerkdurchsatz: Die Hälfte der Zeit, die für die Verarbeitung von KI-Workloads aufgewendet wird, findet im Netzwerk statt. HPC-Netzwerkarchitekturen sind für die Verarbeitung Tausender kleiner, aber gleichzeitiger Workloads konzipiert. Im Gegensatz dazu ist die Zahl von KI-Datenströmen zwar gering, aber sie sind von enormer Größe.
- Horizontal skalierbare Port-Dichte: Für KI-Trainingsdaten wird eine große Anzahl von mit dem Netzwerk verbundenen GPUs verwendet, die Daten parallel verarbeiten. Daher kann die Anzahl der Netzwerkverbindungen das acht- bis 16-fache der normalen Anzahl in einem Data Center betragen. Die schnelle Übertragung zwischen den GPUs und dem Speicher erfordert eine vollständig vermaschte Switch-Fabric mit nicht blockierenden Ports, um die beste Ost-West-Netzwerkleistung zu erzielen.
- Vermeiden von menschlichen Fehlern: KI-Workloads sind in der Regel sehr umfangreich. Bis zu 50 Prozent der Zeit, die für die Verarbeitung von KI-Trainingsdaten aufgewendet wird, entfällt auf den Transport im Netzwerk. GPUs müssen die gesamte Verarbeitung von Trainingsdaten abschließen, bevor KI-Anwendungen die daraus resultierenden Informationen nutzen können. Jede Unterbrechung oder Verlangsamung, und sei sie noch so gering, während dieses Prozesses kann zu erheblichen Verzögerungen führen. Der größte Schuldige für Ausfälle oder Beeinträchtigungen des Netzwerks ist die manuelle Konfiguration. KI-Infrastrukturen müssen belastbar und frei von menschlichen Fehlern sein.
Netzwerkdesign für KI
Um die oben genannten Anforderungen für eine optimale Handhabung von KI-Workloads zu erfüllen, werden moderne Data Center-Netzwerke zunehmend mit spezialisiertem Netzwerktransport, Clos-Architekturen (ein nicht blockierendes, mehrstufiges Switching-Netzwerk) und intelligenter Automatisierung aufgebaut.
Spezialisierter Netzwerktransport und Beschleuniger
Spezialisierte physische und logische Transportmechanismen minimieren die Netzwerklatenz bei der Verarbeitung von KI-Workloads. InfiniBand bietet für KI-Workloads Verbesserungen bei Geschwindigkeit, Latenz und Zuverlässigkeit gegenüber Standard-Ethernet. Der Nachteil ist jedoch, dass InfiniBand ein eigenes Protokoll mit spezieller Verkabelung ist. Diese beiden Faktoren erhöhen die Kosten für die Bereitstellung im Vergleich zu Ethernet.
Im Data Center gibt es bereits eine Alternative zu InfiniBand: Standard-Ethernet-Verkabelung und -Switching-Hardware. Ethernet kann KI-Workloads mit einem optimierten Netzwerkprotokoll transportieren, zum Beispiel RDMA over Converged Ethernet, allgemein RoCE genannt. Dieses Ethernet-basierte Protokoll bietet eine niedrige Latenz und einen hohen Datendurchsatz – genau die Anforderungen für KI-Workflows.
Accelerator und smartNICs unterstützen KI-Workloads auch auf der Datenverarbeitungsebene. DPUs sind programmierbare Prozessoren, die Daten übertragen und viele Aufgaben gleichzeitig verarbeiten. Netzwerkteams können DPUs unabhängig verwenden oder DPUs in smartNICs einsetzen, die einige Netzwerkaufgaben auslagern und dazu beitragen, Rechenressourcen für KI-Training und -Workloads freizugeben.
Dreistufige und fünfstufige Clos-Netzwerke
Netzwerke, die für den Transport von KI-Workloads konzipiert sind, verwenden in der Regel eine nicht blockierende dreistufige oder fünfstufige Clos-Netzwerkarchitektur. Dieses Design ermöglicht es zahlreichen GPUs, Daten parallel zu verarbeiten. Bei dieser Architektur kann ein Netzwerk die acht- bis 16-fache Port-Dichte gegenüber herkömmlichen Data Center-Netzwerken bewältigen. Das Clos-Design bietet auch Effizienz für die Datenübertragung zwischen GPUs und Storage.
Intelligente Netzwerkautomatisierung mit Netzwerkmanagement-Tools
Die Beseitigung menschlicher Fehler beim Betrieb von Data Center-Netzwerken ist ein schnell wachsendes und sich weiterentwickelndes Ziel der Unternehmens-IT. Netzwerk-Orchestrierungs-Tools gehen dieses Problem mit intelligenter Automatisierung an. Diese Tools ersetzen manuelle Konfigurationsprozesse durch integrierte KI-Funktionen zur Durchführung von Konfigurationsaufgaben.
KI-gestützte Tools für die Netzwerkorchestrierung können Konfigurationen im gesamten Netzwerk vereinheitlichen und erkennen, ob Änderungen andere Teile des Netzwerks stören werden. Diese Plattformen für die Netzwerk-Orchestrierung prüfen und validieren kontinuierlich bestehende Netzwerkkonfigurationen. Sie können die Zustands- und Leistungsdaten der Netzwerkkomponenten analysieren und optimieren. Wenn das System Konfigurationsänderungen zur Optimierung des Datenflusstransports feststellt, kann es diese Änderungen ohne menschliches Zutun vornehmen.