Laurent - stock.adobe.com
Die wichtigsten KI-Speicher großer Anbieter im Überblick
Verfügbare KI-Speichern bieten Unternehmen eigenständige und vorkonfigurierte Produkte, die auf die Speicher- und der Kapazitätsanforderungen von KI-Workloads zugeschnitten sind.
Storage für KI-Anbieter offerieren entweder konvergente Infrastrukturprodukte oder Produkte, die Unternehmen in ihre KI-Projekte integrieren können. Verschiedene Anbieter, darunter DataDirect Networks, Dell EMC, Hewlett Packard Enterprise, IBM, NetApp und Pure Storage, bieten gebündelte Produkte oder Referenzarchitekturen mit Server- und Netzwerkpartnern an. Diese Angebote erhöhen die Speicherleistung und Kapazität entsprechend den CPU- und GPU-Ressourcen.
Andere Anbieter, darunter Excelero, Vast Data und WekaIO, bieten Softwareprodukte an, die skalierbare Speicherleistung und Kapazität bieten. Der Kunde übernimmt die Integrationsarbeiten mit diesen KI-Plattformen. Diese drei Anbieter arbeiten auch mit Partnern zusammen, um ihre Produkte als vorkonfigurierte Appliances zu liefern.
Wir werfen einen näheren Blick darauf, welche Arten von Storage für KI-Produkte diese neun Anbieter am Markt zur Verfügung stellen.
DataDirect Netzwerke
DataDirect Networks (DDN) hat zwei Produktfamilien, die Speichermodelle AI200 und AI400, die beide auf Nvidia- und Hewlett Packard Enterprise (HPE)-Servern basieren. Die Nvidia-Referenzarchitektur besteht aus einem, vier oder neun DGX-1-Appliances oder einem oder drei DGX-2-Appliances.
Die Systeme nutzen 100-Gigabit-Ethernet (GbE) oder InfiniBand-Netzwerke, wobei zwei Appliances den Speicher bereitstellen. Bei den beiden Modellen handelt es sich um NVMe-Appliances mit reinem Flash, die ein paralleles Dateisystem implementieren.
Beide Modelle unterstützen bis zu 24 Dual-Port 2,5-Zoll NVMe-Laufwerke. DDN nennt Leistungsdaten für das AI200-Modell von bis zu 25 GB für Lesen und Schreiben und bis zu 750.000 IOPS. Für das AI400-Modell bietet der Anbieter 33 GB Lese- und Schreibzugriff und 1,5 Millionen IOPS mit einer maximalen Kapazität von 360 TByte.
HPE-Systeme nutzen die Serverplattform Apollo 6500 Gen10, die bis zu acht GPUs pro Server und NVLink 2.0 unterstützt. Zu den unterstützten Speicherkonfigurationen gehören der AI200 und der AI400 sowie der hybride Speicher AI7990, der auf 5,4 Petabyte (PB) mit bis zu 750.000 IOPS und 23 GB Lese- und 16 GB Schreibleistung skaliert werden kann. DDN empfiehlt zwei Referenzarchitekturen auf Basis von Apollo mit einem AI400 und entweder einem oder vier 6500-Servern mit mehreren GPU-Konfigurationen.
Dell EMC
Dell EMC bietet drei Speicheroptionen für KI-Produktsets auf Basis von Nvidia-GPUs, Dell-Servern oder Dell-Servern mit Hadoop. Die EMC-Nvidia-Produkte von Dell setzen einen PowerEdge R740xd-Hauptknoten und vier PowerEdge C4140-Arbeitsknoten mit jeweils vier Nvidia Tesla V100-GPUs ein. Mellanox InfiniBand-Switches sorgen für die Vernetzung, und Isilon F800 All-Flash-NAS für den Speicher. Der F800 ist in der Lage, von einem einzigen Chassis mit 250.000 IOPS und 15 GB Durchsatz bis hin zu einer vollständigen Konfiguration von 15,75 Millionen IOPS und 945 GB in einem 252-Knoten-Cluster mit 58 PB Kapazität zu skalieren.
Dell-Server ohne GPUs setzen einen einzigen PowerEdge R740xd-Kopfknoten und 16 PowerEdge C6420-Knoten mit jeweils zwei Xeon Gold 6230-Prozessoren, 192 GB dynamischem RAM und 250 GB lokalem M.2-Speicher ein. Isilon H600 Hybridspeicher bietet den gemeinsamen Speicher. H600-Systeme liefern bis zu 120.000 IOPS und 12 GB Durchsatz pro Chassis.
Das Hadoop-Produkt von Dell EMC für Künstliche Intelligenz setzt einen PowerEdge R640-Hauptknoten und zwei PowerEdge R640-Arbeitsknoten ein, die über ein Dell 25 GbE-Netzwerk verbunden sind. Arbeits-Nodes verwenden lokalen SSD-Speicher. Die Hadoop-Infrastruktur besteht aus bis zu 10 PowerEdge R740xd-Servern, die gemeinsamen Speicher bereitstellen.
Excelero
Excelero ist ein Startup-Anbieter, der einen Scale-Out-Blockspeicher für leistungsstarke und latenzarme Anforderungen wie maschinelles Lernen und KI entwickelt hat. Die Excelero NVMesh-Software verwendet ein patentiertes Protokoll namens Remote Direct Drive Access oder RDDA.
Dieses Protokoll, das dem Remote Direct Memory Access (RDMA) ähnlich ist, ermöglicht es Knoten oder Servern in einem NVMesh-Cluster, mit NVMe-Laufwerken in einem anderen Knoten zu kommunizieren, ohne die CPU des Zielservers einzubeziehen.
Dies ermöglicht NVMesh eine hohe lineare Skalierbarkeit als dediziertes Speicherprodukt oder in einer hyperkonvergente Konfiguration. NVMesh kann mit IBM Spectrum Scale kombiniert werden, um ein Scale-Out-Dateisystem für Machine Learning und KI zu liefern.
Excelero liefert keine Leistungskennzahlen, aber der Anbieter arbeitet mit Partnern und Resellern zusammen, um integrierte Hard- und Softwareprodukte zu entwickeln. Die Talyn-Plattform von Boston in Großbritannien beispielsweise kann bis zu 4,9 Millionen IOPS und 23 GB Durchsatz bei weniger als 200 Mikrosekunden (µs) Latenzzeit in einer zwei Höheneinheiten großen All-Flash-Appliance liefern.
Hewlett Packard Enterprise
HPE arbeitet mit WekaIO und Scality zusammen, um ein „Tiered“ - abgestuftes Angebot zu liefern, das sowohl den Kapazitäts- als auch den Leistungsanforderungen entspricht. HPE bietet zwei Referenzarchitekturen, die entweder auf HPE Apollo 2000 Servern für WekaIO Matrix und Apollo 4200 für Scality Ring basieren.
Es bietet auch ein kombiniertes Produkt, das Apollo 4200 sowohl für Matrix als auch für Ring auf derselben Hardware verwendet. Ein einzelner Apollo 4200 Gen10-Server unterstützt bis zu 46 TB NVMe-Speicher oder 288 TB Festplattenkapazität. Typische Konfigurationen bestehen aus mindestens sechs Apollo 4200-Servern für einen gemischten Cluster oder sechs Apollo 4200 und sechs Apollo 2000-Servern in einem disaggregierten Cluster.
HPE bietet eine KI-Referenzarchitektur mit WekaIO-Software, die auf ProLiant DL360 Gen10-Servern mit NVMe SSDs eingesetzt wird. Die Vernetzung erfolgt über Mellanox 100 Gb InfiniBand-Switches, während Apollo 6500 Gen10-Server bis zu acht Nvidia Tesla V100-GPUs bereitstellen.
IBM
Die Referenzarchitektur von IBM für KI ist Spectrum Storage for AI. Das Produkt verwendet entweder IBM Power System Server oder Nvidia DGX-1 und DGX-2 Server. Die Power System AC922-Variante verwendet IBM Power9-Prozessoren und bis zu sechs Nvidia Tesla V100-GPUs in einem einzigen Server. Die DGX-Varianten unterstützen bis zu neun DGX-1- oder drei DGX-2-Server pro Rack.
In beiden Fällen verwenden die Produkte Mellanox InfiniBand-Switches oder 100 GbE und IBM Elastic Storage Server (ESS) All-Flash-Systeme. Typische DGX-Konfigurationen kombinieren drei DGX-1-Server mit einer All-Flash-Appliance oder eine DGX-2 mit einer All-Flash-Appliance.
IBM ESS kombiniert NVMe-Blockspeicher und IBM Spectrum Scale, früher bekannt als General Parallel File System oder GPFS. Jede ESS-Appliance ist in der Lage, 40 GB Durchsatz bei 100 µs Latenzzeit zu liefern und die GPUs auf drei DGX-1-Systemen zu verteilen.
NetApp
Die Ontap-KI kombiniert NetApp All Flash Fabric-Attached Storage (AFF) All-Flash-Speicher mit Nvidia DGX-1-Servern und Cisco-Netzwerken.
Dieses Produkt wird als validierte Referenzarchitektur mit getesteten Kombinationen aus NetApp AFF A800 Storage und DGX-1 Servern angeboten. Typische Konfigurationen verwenden einen einzelnen AFF A800 mit einem, vier oder sieben DGX-1-Systemen. Ein AFF A800 unterstützt bis zu 25 GB sequentiellen Lesedurchsatz und 1 Million IOPS und skaliert auf 300 GB und 11,4 Millionen IOPS in einem 24-Knoten-Cluster.
Unter Verwendung einer Referenzarchitektur aus einem AFF A800-System und vier Nvidia DGX-1-Servern behauptet NetApp, die GPUs mit einer Auslastung von mehr als 95 Prozent zu betreiben und nahezu die theoretische maximale Verarbeitungsfähigkeit der Bildbearbeitungsschulungsmodelle ResNet-50, ResNet-152, Inception-v3 und VGG16 zu erreichen.
Ein Vorteil des NetApp Designs ist, dass es Unternehmen ermöglicht, bestehende Ontap-Funktionen zu nutzen und sich in NetApp Data Fabric zu integrieren, um Datenbewegungen in und aus einem dedizierten KI-Produkt zu ermöglichen.
Drei Kategorien von Produkten aus dem Lager für KI-Anbieter
- Speicherprodukte, die mit einer Referenzarchitektur geliefert werden. Dazu gehören Produkte, die entweder KI-Compute und -Storage direkt inkludieren oder eine Referenzarchitektur bereitstellen, die Skalierbarkeit und Leistungsfähigkeit gewährleistet. Fast alle diese Produkttypen basieren auf der Nvidia DGX-Plattform mit Tesla V100 GPUs. Intern verwendet das DGX-Serversystem eine Verbindung namens NVLink, die ein Netzwerk mit hoher Bandbreite zwischen mehreren GPUs und CPUs in der Plattform bereitstellt. NVLink kann bis zu 300 GBps interne Bandbreite in einem DGX-2-Server mit 16 Grafikprozessoren skalieren und 2 Petaflops mit KI-Rechenleistung liefern. DGX-Systeme verfügen zwar über einen lokalen Speicher, aber um Kapazität und Skalierbarkeit der Leistung zu gewährleisten, benötigen sie auch einen schnellen gemeinsamen externen Speicher. Die gebündelten und Referenzarchitekturprodukte von Storage-Anbietern für KI bieten Unternehmen validierte Konfigurationen, die sicherstellen, dass die Bandbreitenfähigkeiten der Tesla-GPUs vollständig genutzt werden. Im Allgemeinen wird dies mit schnellem Shared Storage, 100-Gbit-Netzwerken - entweder Ethernet oder InfiniBand-Replikation von Unternehmensdaten - und einem oder mehreren DGX-1- oder DGX-2-Systemen erreicht. Die meisten mit diesen Architekturen angebotenen Speichersysteme liefern einen hohen Durchsatz bei geringer Latenzzeit unter Verwendung von All-Flash-Medien.
- Leistungsstarker Dateispeicher. Dazu gehört auch Speicher, der als softwaredefinierter Speicher (SDS) geliefert wird, entweder als Software oder mit gebündelter Hardware von Partnern. In diesem Fall wird die Leistungsvalidierung durch Whitepaper und interne Tests durchgeführt, jedoch nicht speziell durch eine Referenzarchitektur.
- Objektspeicher. Schließlich stellen die Anbieter von Objektspeichern die Kapazität zur Verfügung, große Mengen unstrukturierter Daten für maschinelles Lernen und KI zu speichern, und arbeiten mit anderen Anbietern zusammen, um integrierte Produkte bereitzustellen, die Daten zwischen schnellen und kapazitiven Tiers (Ebenen) austauschen.
Pure Storage
Pure Storage AIRI ist ein konvergentes Infrastruktur-Produkt von Pure Storage FlashBlade, Nvidia DGX-1 Servern und Arista 100-GbE-Switches. AIRI ermöglicht es Administratoren, die Speicherkapazität und -leistung zu skalieren, indem sie der FlashBlade-Konfiguration weitere Blades hinzufügen und die Rechenleistung mit zusätzlichen DGX-1-Servern skalieren. Eine FlashBlade-Konfiguration mit 15 Blades liefert rund 17 GBps Bandbreite und 1,5 Millionen NFS-IOPS.
Pure hat AIRI erweitert, um immer kleinere und größere Konfigurationen anzubieten. AIRI Mini verfügt über zwei Ethernet-Switches, die entweder Ethernet oder InfiniBand unterstützen, mit sieben 17 TB FlashBlades und zwei Nvidia DGX-1-Systemen mit Tesla V100-GPUs.
Die Standard AIRI-Konfiguration bietet zwei Switches, vier Nvidia DGX-1-Server und 15 17 TB FlashBlades. Hyperscale AIRI bietet drei Konfigurationen mit jeweils zwei Ethernet- oder InfiniBand-Stoffen. Anwender können neun Nvidia DGX-1 Systeme mit 30 17-TB-FlashBlades auf zwei Chassis wählen. Eine zweite Konfiguration verwendet drei Nvidia DGX-2 Server mit 30 17 TB FlashBlades über zwei Chassis. Eine dritte Konfiguration verwendet zwei Nvidia DGX-2 Systeme und 15 17 TB FlashBlades.
Pure Storage hat kürzlich FlashStack für KI angekündigt, ein Produkt, das auf Cisco Unified Computing System C480 ML Servern, Cisco Nexus Switches und FlashBlade basiert und es Unternehmen ermöglicht, End-to-End-Datenpipelines für die Verwaltung von KI-Anwendungen aufzubauen.
Vast Data
Vast Data ist ein relativ neues Speicher-Start-up. Das Unternehmen hat eine Scale-Out-Architektur entwickelt, die auf kostengünstigem QLC-NAND-Flash-Speicher und Intel Optane basiert, um hybride und HDD-basierte Systeme im Unternehmen zu ersetzen.
Das Vast Universal Storage System bietet maschinelles Lernen und KI-Workloads mit kostengünstiger Kapazität pro Gigabyte und Submillisekunden-Latenz. In der aktuellen Version bietet die Protokollunterstützung NFSv3 oder NFS über RDMA, wodurch der Datentransfer die Einschränkungen der traditionellen NFS über IP-Netzwerke eliminieren kann. Vast beabsichtigt, dass sein System das Haupt-Repository für Unternehmen mit großen unstrukturierten Data Lakes ist, die maschinelles Lernen und KI-Infrastrukturen direkt verarbeiten.
WekaIO
Die WekaIO Matrix-Software implementiert ein verteiltes Scale-Out-Dateisystem. Matrix kann in der Public Cloud oder mit einer lokalen Infrastruktur eingesetzt werden, die NVMe Storage und NVMe-oF verwendet, um Tausende von Knoten zu einem riesigen parallelen Dateisystem zu verbinden. Obwohl Matrix NFS-Unterstützung bieten kann, erfolgt der Zugriff auf das Dateisystem hauptsächlich über einen Client-Agenten, der ein lokales Dateisystem der Anwendung zur Verfügung stellt.
WekaIO verkauft nicht den gesamten Storage für KI-Angebote direkt, sondern arbeitet mit Partnern und Resellern zusammen. HPE bietet beispielsweise Produkte auf Basis von HPE Apollo 6500 Gen10 Servern an, die Nvidia GPUs unterstützen. Matrix ist auf Speicherknoten wie Apollo 4200 und ProLiant DL360 Servern implementiert.
Matrix lässt sich für zahlreiche maschinellen Lernprozesse und KI-Workloads einsetzen, mit Designmerkmalen, die sowohl kleine Dateien als auch große Dateizahlen unterstützen. Matrix ermöglicht es Unternehmen, Daten durch Unterstützung des S3-Protokolls auf kostengünstigere Speicherformen zu übertragen. Dazu gehören Public Cloud und Partner wie Scality.
Anmerkung des Autors: Mit umfangreichen Recherchen zum Thema Storage für den KI-Markt konzentrierten sich die TechTarget-Redakteure dieser Artikelserie auf Speichersysteme, die für den Betrieb von hochleistungsfähigen KI- und maschinellen Lernanalysen verwendet werden. Unsere Forschung umfasste Daten aus TechTarget-Umfragen und Berichte anderer renommierter Forschungseinrichtungen, darunter Gartner.