Hoda Bogdan - stock.adobe.com
Nvidia versus AMD: Data-Center-Grafikkarten im Vergleich
Sowohl Nvidia als auch AMD bieten für große Rechenzentren optimierte GPUs an. Vergleichen Sie die beiden, um zu entscheiden, was am besten zu Ihren Geschäftsanforderungen passt.
Nvidia hat stark in den Aufbau eines Ökosystems rund um seine GPU-Produkte investiert. Doch auch die Konkurrenz bei AMD bietet leistungsstarke Grafikprozessoren, die mit Nvidia mithalten können. Mit der Veröffentlichung der neuen Ampere-Architektur von Nvidia und der MD100-GPU von AMD wetteifern die beiden Hersteller erneut um die Vorherrschaft auf dem Markt für Grafikprozessoren in Rechenzentren.
GPUs (Graphics Processing Unit, Grafikprozessor) wurden ursprünglich entwickelt, um aufwendige Grafikberechnungen zu beschleunigen. Sie haben sich aber seitdem zu voll programmierbaren Rechenmaschinen entwickelt. Unternehmen nutzen GPUs inzwischen häufig für Aufgaben wie das Training von Machine-Learning-Modellen (ML) oder in Szenarien, die High-Performance-Computing (HPC) erfordern.
Unternehmen, die in ihrem Rechenzentrum die Geschwindigkeit durch den Einsatz von Grafikkarten beschleunigen möchten, sollten die GPU-Angebote von Nvidia und AMD vergleichen, um herauszufinden, welche ihren Anforderungen am besten entsprechen.
Die GPU-Angebote von Nvidia
Unternehmen nutzen die GPUs von Nvidia für eine Reihe von Rechenzentrums-Workloads, unter anderem zum Trainieren von Machine-Learning-Modellen und zu deren Betrieb. Nvidia-GPUs können auch die Berechnungen in Supercomputing-Simulationen beschleunigen, zum Beispiel bei der Finanzmodellierung oder der Vorhersage extremer Wetterbedingungen. Darüber hinaus hat Nvidias Partner OmniSci eine Plattform mit einer GPU-beschleunigten Datenbank, einer Rendering Engine und einem Visualisierungssystem entwickelt. Sie liefern zusammen Analyseergebnisse wesentlich schneller als herkömmliche Alternativen.
Die A100-GPUs von Nvidia basieren auf Nvidias Ampere-Architektur, welche die Volta- und Turing-Architekturen ablöst. Der A100-GPU-Beschleuniger verfügt über 108 Streaming-Multiprozessoren, von denen jeder vier von Nvidias Tensor Cores der dritten Generation und 64 FP32 CUDA Cores enthält.
Der Tensor Core ist eine spezialisierte Verarbeitungseinheit, die für 4x4-Matrix-Operationen optimiert ist. Das kann dazu beitragen, Berechnungen im Bereich des maschinellen Lernens erheblich zu beschleunigen. Tensor Cores bieten auch Verbesserungen im Umgang mit dünn besetzten Matrizes, die bei KI- und HPC-Workloads oft vorkommen.
Der GA100-Chip, das Herzstück dieses GPU-Beschleunigers, verfügt über ein Dutzend 512-Bit High-Bandwidth-Memory-Controller der zweiten Generation, die sechs Bänke von HBM2 Stacked Memory ansteuern. Bei der Markteinführung wurde der A100 mit 40 GByte Speicher ausgeliefert und bot eine Speicherbandbreite von 1.555 GByte pro Sekunde. Nvidia stellte jedoch im November 2020 eine neue Version vor, bei der das Unternehmen den Speicher auf 80 GByte verdoppelt und die Speicherbandbreite auf 2 TByte pro Sekunde erhöht hat.
Nvidia bietet auch Softwareunterstützung für Entwickler an, die CUDA (Compute Unified Device Architecture) verwenden möchten, wie zum Beispiel das CUDA Toolkit. Es enthält GPU-beschleunigte Bibliotheken, einen Compiler, Entwicklungswerkzeuge und die CUDA-Laufzeit. Unternehmen können Frameworks für maschinelles Lernen rund um CUDA zur Unterstützung von GPU-Beschleunigern aufbauen.
AMDs GPU-Angebote
AMDs Instinct MI100 GPU kam 2020 auf den Markt und zielt auf wissenschaftliche Workloads ab. AMD hat sein GPU-Portfolio in Produktlinien speziell für Computerspiele (Radeon DNA-Architektur) und Produktlinien für Rechenzentren aufgeteilt (Compute DNA-Architektur im Instinct MI100).
Die Instinct MI100 implementiert 120 Compute Units (CU), die in acht Blöcke aufgeteilt und durch eine On-Die-Fabric miteinander verbunden sind. Das bedeutet, dass sie auf Chipebene miteinander kommunizieren. Wie die GPU von Nvidia bestehen die CUs aus kleineren Funktionseinheiten, den sogenannten Stream-Prozessoren, von denen es 64 pro CU gibt. Wie Nvidia verwendet auch AMD-HBM2-Speicher, und die GPU hat vier Bänke, die insgesamt 32 GByte Speicher und 1,23 TByte/s aggregierte Speicherbandbreite bieten.
Die CUs im Instinct MI100 verfügen über Matrix Core Engines, die für die Matrix-Datentypen des maschinellen Lernens optimiert sind. Sie unterstützen auch neue numerische Formate für maschinelles Lernen und bewahren die Abwärtskompatibilität für Software, die für die bisherige AMD-GPU-Architektur geschrieben wurde.
AMD bietet eine Softwareentwicklungsplattform namens ROCm an. ROCm, eine offene Plattform, ermöglicht es Entwicklern, Code für mehrere Umgebungen zu schreiben und zu kompilieren, einschließlich Nvidia GPUs. Sie unterstützt gängige Machine Learning Frameworks wie die Open-Source-Programme TensorFlow und PyTorch. ROCm ermöglicht auch das Migrieren von von Nvidia-CUDA-Code auf AMD-Hardware.
Nvidia versus AMD-GPUs: Wie schneiden sie ab?
Ein direkter Vergleich zwischen den GPU-Leistungszahlen von Nvidia und AMD gibt AMD einen offensichtlichen Vorteil gegenüber Nvidia, mit bis zu 11,5 Teraflops in 64-Bit-Gleitkomma (FP64) und bis zu 23,1 Teraflops in FP32, verglichen mit Nvidias 9,7 Teraflops in FP64 und 19,5 Teraflops in FP32. Nvidias A100-GPU verfügt jedoch über wichtige Erweiterungen zur Beschleunigung von KI-Funktionen (künstliche Intelligenz) und stellt viel mehr Speicher als AMDs Grafikprozessoren zur Verfügung. AMD macht Nvidia somit ernsthaft Konkurrenz, wenn es um HPC geht, aber Nvidia behält immer noch den Vorsprung bei der KI-Beschleunigung.
Nvidia hat mit CUDA ein ausgereifteres Programmier-Framework, doch AMDs ROCm funktioniert als universelle Plattform für GPU-beschleunigtes Rechnen auf jeder GPU. Potenzielle Kunden sollten die Leistung für sich selbst bewerten, basierend auf den Anwendungen und Tools, die sie ausführen möchten.
IT-Abteilungen könnten eine zusätzliche Wahl haben, wenn es um GPU-Beschleuniger geht. Intel beabsichtigt, mit eigenen Angeboten in den GPU-Markt einzusteigen – die Intel Xe-Familie, die sich auf ein Highend-Gerät mit dem Codenamen Ponte Vecchio konzentriert.
Intel plant den Einsatz von Ponte Vecchio im Supercomputer Aurora am Argonne National Laboratory in Lemont, Illinois, im Jahr 2021.