k_yu - stock.adobe.com

Die Referenzarchitektur NVIDIA DGX SuperPOD mit VAST erklärt

Die Kombination aus dem DGX SuperPOD und der VAST-Plattform ist eine zertifizierte Referenzarchitektur für HPC- und KI-Workloads, die Flexibilität und Skalierbarkeit bieten soll.

Datastore-Anbieter VAST erhielt als erstes Unternehmen im Mai 2023 die Zertifizierung für den DGX SuperPOD von NVIDIA. Im Bundle soll die Lösung es Anwendern erleichtern, künstliche Intelligenz (KI) in ihrer Umgebung zu nutzen und einen Mehrwert aus ihren Daten zu ziehen. Dabei können Kunden aus abgestimmten Konfigurationen wählen und die Herausforderungen komplexer Legacy-Lösungen bewältigen. Beide Unternehmen wollen mit der beschleunigten Infrastrukturplattform ihre gemeinsamen Bemühungen vorantreiben, KI für alle Unternehmen zugänglich zu machen.

Als eine NAS-Lösung, die für den DGX SuperPOD zertifiziert ist, will VAST eine neue Stufe der Einfachheit bei Hochleistungsspeichern offerieren, die auch für Firmen beziehungsweise IT-Teams ohne tiefgreifende interne HPC-Expertise einfach zu verwalten und zu betreiben sind. Das Angebot stellt einen schlüsselfertigen, gemeinsam entwickelten und validierten KI-Supercomputer dar, der die erforderliche Leistung für alle modernen, beschleunigten KI-Workloads gewährleisten soll.

VAST ist als Anbieter von NAS-Lösungen bekannt und sieht sich oft mit dem Stigma angeblich mangelnder Leistung für intensive Arbeitslasten, wie sie bei HPC/KI üblich sind, konfrontiert. Allerdings arbeitet der Hersteller schon seit langem im HPC-Bereich und will mit der neuen Lösung den Ruf untermauern, dass diese Systeme sehr wohl leistungsfähig genug für diese Art der Workloads sind.

Laut Hersteller entfiel im letzten Geschäftsjahr fast die Hälfte seines Geschäfts auf HPC/AI-Workloads, wobei die Mehrheit unserer Implementierungen an GPU-ausgestattete Maschinen angeschlossen war. Dabei betont der Anbieter, dass Hochleistungsspeicher nicht die Komplexität benötigen, die mit klassischen parallelen Dateisystemen verbunden ist. VAST arbeitet mit einem NFS-Ansatz, der weniger Komplexität verspricht.

Die Systeme verfügen über branchenübliche Datei- und Objektspeicherprotokolle (wie NFS und S3), die denen anderer herkömmlicher NAS-Lösungen ähneln, nutzen aber die eigene DASE-Architektur, die die anspruchsvolle Leistung von KI-Workloads auf dem DGX SuperPOD bedient. Zudem sind die Systeme hoch skalierbar und laut Anbieter einfach zu verwalten und zu betreiben.

All-Flash-Performance und wirtschaftliche Archivierung

Der DGX SuperPOD mit der VAST-Datenplattform ist das Ergebnis jahrelanger Partnerschaft und des Erfolgs mit gemeinsamen Kunden. Die DASE-Architektur (Disaggregated, Shared Everything) von VAST widerspricht der gängigen Meinung, dass nur klassischer HPC-Speicher, der auf parallelen Dateisystemen basiert, die für KI-Workloads erforderliche Größe und Leistung aufweist. Die inhärent parallele Architektur der Systeme bietet die Skalierbarkeit, Leistung und Ausfallsicherheit, die Standard-NAS-Protokolle für die Datenspeicheranforderungen des DGX SuperPOD geeignet machen. Darüber hinaus ermöglicht diese Architektur eine Reihe von Effizienzsteigerungen: Ähnlichkeitsbasierte Datenreduzierung, Low-Overhead-Löschcodes und Unterstützung für Hyperscale-Flash, die auf einer All-Flash-Infrastruktur die Wirtschaftlichkeit einer Archivierungsebene ermöglichen.

Einfachheit für Nonstop-Daten-Pipelines

Der NAS-Datenspeicher soll optimiertes Management, Skalierbarkeit und betriebliche Effizienz garantieren. Unterbrechungsfreie Upgrades und Erweiterungen lassen reibungslose Betriebszeiten und Zuverlässigkeit sowie für die Unterstützung für Unternehmensfunktionen wie SnapshotsReplikation, sichere Mandantenfähigkeit und Verschlüsselung zu. Mit der DGX SuperPOD-Kombination können sich Anwender auf KI-gesteuerte Ergebnisse konzentrieren und müssen sich nicht mehr auf unterschiedliche Arbeitslasten einstellen.

NVIDIA DGX SuperPOD

Der NVIDIA DGX SuperPOD vereint eine umfassende Infrastruktur mit flexibler, skalierbarer Leistung für die KI- und HPC-Workloads. Es handelt sich nicht nur um eine Ansammlung von Hardware, sondern um eine Rechenzentrumsplattform, die Rechen-, Speicher-, Netzwerk-, Software- und Infrastrukturmanagement umfasst, die aufeinander abgestimmt sind und eine maximale Leistung im großen Maßstab bieten sollen. Der DGX SuperPOD ist zudem mit einem Implementierungsservice ausgestattet, der eine einfache Bereitstellung und einen störungsfreien Betrieb gewährleisten soll.

Als Teil der DGX-Plattform ist der SuperPOD darauf ausgelegt, Multi-Node-Training zu ermöglichen. Herkömmliche große Compute-Cluster sind durch die durch die Komplexität der Skalierung der Inter-GPU-Kommunikation eingeschränkt, da die Konfigurationen immer größer werden und die Parallelisierung von Berechnungen auf immer mehr Knoten umgesetzt wird. Dies führt zu einer abnehmenden Leistung.

Der DGX SuperPOD soll dieses Skalierungsproblem lösen, indem er jede Komponente des Systems für die einzigartigen Anforderungen einer Multi-Node-KI-Infrastruktur optimiert. NVIDIAs Selene, einer der schnellsten und energieeffizientesten Supercomputer der Welt, und andere Cluster, die auf der DGX SuperPOD-Architektur basieren, erreichen laut Hersteller hohe Test-Benchmarks.

NVIDIA Base Command unterstützt die DGX-Plattform und ermöglicht Unternehmen die Nutzung der NVIDIA Software-Tools. Damit sollen Anwender eine Plattform einsetzen können, die Orchestrierung und Cluster-Management, Bibliotheken zur Beschleunigung von Rechen-, Speicher- und Netzwerkinfrastruktur sowie ein für KI-Workloads optimiertes Betriebssystem bereitstellt. Darüber hinaus umfasst die DGX-Infrastruktur NVIDIA AI Enterprise, eine Suite von Software, die die KI-Entwicklung und -Bereitstellung vereinfacht.

Der SuperPOD nutzt den Software-Service NVIDIA Base Command Platform für KI-Training. Base Command Platform bietet eine vollständige, zentralisierte Kontrolle des KI-Trainingsprozesses, einschließlich Ressourcensharing, Job Scheduling und Datensatzverwaltung, über eine grafische Benutzeroberfläche (GUI), eine Befehlszeilenschnittstelle (CLI) und integrierten Überwachungs- und Berichts-Dashboards. Base Command Plattform unterstützt hybride Implementierungen und bietet eine einheitliche Sicht auf KI-Trainingsprojekte über die DGX Cloud und den DGX SuperPOD hinweg.

Die SuperPOD-Lösung ist eine Kombination aus KI Computing, Network Fabric, Storage und Software. Die Compute-Basis fundiert auf den Systemen DGX H100 oder DGX A100 des Herstellers. Sie sind auf Beschleunigung, Trainingskonsolidierung, Inferenz  und Analysen ausgelegt. Das Netzwerk basiert auf InfiniBand-Technologie, das niedrige Latenzen verspricht. Als Speicher kommen für den SuperPOD nur von NVIDIA zertifizierte Speichersysteme, wie dies von VAST.

Darüber hinaus offeriert das Unternehmen im Rahmen der DGX-SuperPOD-Lösung so genannte Lifecycle Services für die Planung und Bereitstellung sowie das Training und die Optimierung. Dazu gehören unter anderem die Kapazitätsplanung, das Rechenzentrumsdesign und das Management sowie Performance-Tests für die Anwendungen und Nutzer-/DevOps-Training.

Erfahren Sie mehr über Flash Storage und SSD