k_yu - stock.adobe.com
Storage und KI: Anforderungen, Features und Angebote
Erfahren Sie hier, welche Anforderungen Storage für KI erfüllen muss, ob sich Cloud- und Objektspeicher dafür eignen und welche passenden Produkte derzeit am Markt verfügbar sind.
Künstliche Intelligenz (KI) und maschinelles Lernen (ML) versprechen einen grundlegenden Wandel in der IT-Automatisierung, mit Anwendungen, die von einfachen Chatbots bis hin zu hochkomplexen Ebenen der Inhaltsgenerierung und Kontrolle reichen.
Storage ist ein wichtiger Bestandteil der KI, um Daten für das Training bereitzustellen und die potenziell riesigen Datenmengen zu speichern, die erzeugt werden, oder während der Inferenz, wenn die Ergebnisse der KI auf reale Arbeitslasten angewendet werden.
In diesem Artikel befassen wir uns mit den Hauptmerkmalen von KI-Workloads, ihrem I/O-Profil, den für KI geeigneten Speichertypen, der Eignung von Cloud- und Objektspeicher für KI sowie der Strategie und den Produkten von Speicheranbietern für KI-Umgebungen.
Was sind die Hauptmerkmale von KI-Workloads?
KI und ML basieren auf dem Training eines Algorithmus, um Muster in Daten zu erkennen, Einblicke in die Daten zu gewinnen und häufig Reaktionen auf der Grundlage dieser Erkenntnisse auszulösen. Dabei kann es sich um sehr einfache Empfehlungen auf der Grundlage von Verkaufsdaten handeln, wie zum Beispiel die Empfehlung „Kunden, die dieses Produkt gekauft haben, haben auch dieses erworben“. Es kann sich aber auch um komplexe Inhalte handeln, wie wir sie von großen Sprachmodellen (LLMs) in der generativen KI (GenAI) kennen. Diese werden auf umfangreichen und vielfältigen Datensätzen trainiert, um überzeugende Texte, Bilder und Videos zu erstellen.
Es gibt drei wichtige Phasen und Einsatzarten für KI-Workloads:
- Training, bei dem der Algorithmus auf der Grundlage des KI-Modelldatensatzes und unter mehr oder weniger starker menschlicher Aufsicht trainiert wird.
- Inferenz, bei der die in der Trainingsphase identifizierten Muster entweder in eigenständigen KI-Implementierungen und/oder in einer Anwendung zum Einsatz kommen.
- Einsatz und Bereitstellung von KI für eine Anwendung oder eine Reihe von Anwendungen.
Wo und wie KI- und ML-Workloads trainiert und ausgeführt werden, kann sehr unterschiedlich sein. Einerseits können sie Batch- oder einmaligen Trainings- und Inferenzläufen ähneln, die der High-Performance-Computing (HPC)-Verarbeitung bestimmter Datensätze in Wissenschafts- und Forschungsumgebungen ähneln. Andererseits kann KI, nachdem sie trainiert wurde, auf kontinuierliche Anwendungs-Workloads angewandt werden, wie zum Beispiel die oben beschriebenen Arten von Vertriebs- und Marketingoperationen.
Die Datentypen in den Trainings- und Betriebsdatensätzen können von einer Vielzahl kleiner Dateien, zum Beispiel Sensorwerte im Internet der Dinge (IoT), bis hin zu sehr großen Objekten wie Bild- und Filmdateien oder diskreten Stapeln wissenschaftlicher Daten reichen. Die Dateigröße beim Ingestion hängt auch von den verwendeten KI-Frameworks ab.
Datensätze können auch Teil des primären oder sekundären Datenspeichers sein, beispielsweise Verkaufsunterlagen oder Daten in Backups, die zunehmend als wertvolle Quelle für Unternehmensinformationen angesehen werden.
Was sind die I/O-Merkmale von KI-Workloads?
Training und Schlussfolgerungen in KI-Workloads erfordern in der Regel eine massiv parallele Verarbeitung unter Verwendung von Grafikverarbeitungseinheiten (GPUs) oder ähnlicher Hardware, die die Verarbeitung von CPUsentlasten.
Die Prozessierungsleistung muss außergewöhnlich hoch sein, damit KI-Training und Inferenz in einem angemessenen Zeitrahmen und mit möglichst vielen Iterationen durchgeführt werden können, um die Qualität zu maximieren.
Die Infrastruktur muss auch in der Lage sein, massiv zu skalieren, um sehr große Trainingsdatensätze und Ergebnisse aus Training und Inferenz zu verarbeiten. Außerdem muss die Geschwindigkeit der Ein- und Ausgabe zwischen Speicherung und Verarbeitung hoch sein und möglicherweise auch die Übertragbarkeit der Daten zwischen verschiedenen Standorten verwalten können, um eine möglichst effiziente Verarbeitung zu ermöglichen.
Die Daten sind wahrscheinlich eher unstrukturiert und in großen Mengen vorhanden, als dass sie strukturiert und in Datenbanken gespeichert sind.
Welche Art von Speicher benötigen KI-Workloads?
Wie wir gesehen haben, ist die massive Parallelverarbeitung mit GPUs das Herzstück der KI-Infrastruktur. Kurz gesagt, die Aufgabe des Speichers besteht darin, diese GPUs so schnell wie möglich mit Daten zu versorgen, um sicherzustellen, dass diese sehr kostspielige Hardware optimal genutzt wird.
In den meisten Fällen bedeutet dies Flash-Speicher für niedrige Latenzzeiten beim I/O. Die erforderliche Speicherkapazität hängt von der Größe der Arbeitslasten und der wahrscheinlichen Größe der Ergebnisse der KI-Verarbeitung ab, aber Hunderte von Terabytes oder sogar Petabytes sind wahrscheinlich.
Ein angemessener Durchsatz ist ebenfalls ein Faktor, da verschiedene KI-Frameworks Daten unterschiedlich speichern, zum Beispiel zwischen PyTorch (große Anzahl kleinerer Dateien) und TensorFlow (das Gegenteil). Es geht also nicht nur darum, die Daten schnell zu den GPUs zu bringen, sondern auch in der richtigen Menge und mit den richtigen I/O-Fähigkeiten.
In jüngster Zeit haben Speicheranbieter Flash-basierten Storage – oft unter Verwendung von QLC-Flash mit hoher Dichte – als potenziellen Allzweckspeicher propagiert, auch für Datensätze, die bisher als sekundär galten, wie beispielsweise Backup-Daten, da die Kunden nun möglicherweise mit höherer Geschwindigkeit auf sie zugreifen möchten, wenn sie KI einsetzen.
Der Speicher für KI-Projekte wird von einer sehr hohen Leistung während des Trainings und der Inferenz bis hin zu verschiedenen Formen der längerfristigen Speicherung reichen, da zu Beginn eines KI-Projekts nicht immer klar ist, welche Daten nützlich sein werden.
Ist Cloud-Speicher für KI-Workloads geeignet?
Die Speicherung in der Cloud könnte für KI-Workloads eine sinnvolle Lösung sein. Der Vorteil, Daten in der Cloud zu speichern, bringt ein Element der Portabilität mit sich, da die Daten näher an ihren Verarbeitungsort verschoben werden können.
Viele KI-Projekte beginnen in der Cloud, weil man die GPUs so lange nutzen kann, wie man sie braucht. Die Cloud ist nicht billig, aber für den Einsatz von Hardware am lokalen Standort muss man sich auf ein Produktionsprojekt festgelegt haben, bevor sich der reale Nutzen erkennen lässt.
Alle wichtigen Cloud-Anbieter offerieren KI-Dienste, die von vortrainierten Modellen, APIs für Modelle, KI-/ML-Berechnungen mit skalierbarer GPU-Bereitstellung (Nvidia und eigene GPUs) bis zu einer auf mehrere Petabytes skalierbaren Speicherinfrastruktur reichen.
Ist Objektspeicher für KI-Workloads geeignet?
Objektspeicher eignen sich gut für unstrukturierte Daten, können massiv skaliert werden, sind häufig in der Cloud zu finden und können fast jeden Datentyp als Objekt verarbeiten. Damit ist er für die großen, unstrukturierten Datenmengen, die bei KI- und ML-Anwendungen anfallen, gut geeignet.
Das Vorhandensein umfangreicher Metadaten ist ein weiteres Plus des Objektspeichers. Sie können durchsucht und gelesen werden, um die richtigen Daten für KI-Trainingsmodelle zu finden und zu organisieren. Die Daten können fast überall gespeichert werden, auch in der Cloud mit Verbindung über das S3-Protokoll.
Trotz aller Vorteile können Metadaten aber auch die Speicher-Controller überfordern und die Leistung beeinträchtigen. Und wenn die Cloud ein Standort für das Storage ist, müssen die Cloud-Kosten berücksichtigt werden, wenn auf die Daten zugegriffen wird und sie verschoben werden.
Was bieten die Storage-Hersteller für KI?
Nvidia bietet Referenzarchitekturen und Hardware-Stacks an, die Server, GPUs und Netzwerke umfassen. Dabei handelt es sich um die DGX BasePOD-Referenzarchitektur und den schlüsselfertigen DGX SuperPOD-Infrastruktur-Stack, die für verschiedene Branchen spezifiziert werden können.
Speicheranbieter haben sich auch auf den I/O-Engpass konzentriert, damit Daten effizient an eine große Anzahl von GPUs geliefert werden können.
Diese Bemühungen reichen von Integrationen mit der Nvidia-Infrastruktur – dem Hauptakteur in der GPU- und KI-Servertechnologie – über Microservices wie NeMo für das Training und NIM für die Inferenz bis hin zur Validierung von Speicherprodukten mit der KI-Infrastruktur und zu ganzen Speicherinfrastruktur-Stacks, die auf KI ausgerichtet sind.
Die Initiativen der Anbieter konzentrieren sich auch auf die Entwicklung von Retrieval Augmented Generation (RAG)-Pipelines und Hardware-Architekturen, die diese unterstützen. RAG validiert die Ergebnisse des KI-Trainings durch Bezugnahme auf externe, vertrauenswürdige Informationen, unter anderem um sogenannte Halluzinationen oder Vorurteile (BIAS) zu bekämpfen.
Welche Speicheranbieter bieten Produkte an, die für Nvidia DGX validiert sind?
Zahlreiche Speicheranbieter haben Produkte, die mit DGX-Angeboten validiert sind, darunter die folgenden.
DataDirect Networks (DDN) bietet seine A³I AI400X2 All-NVMe Storage Appliances mit SuperPOD an. Jede Appliance bietet einen Durchsatz von bis zu 90 GB/s und drei Millionen IOPS.
Die AI Factory von Dell ist ein integrierter Hardware-Stack, der Desktop-, Laptop- und Server-Rechner des Typs PowerEdge XE9680, PowerScale F710-Speicher, Software und Services umfasst und mit der KI-Infrastruktur von Nvidia validiert ist. Es ist über das Apex-as-a-Service-Programm von Dell erhältlich.
IBM bietet Spectrum Storage für KI mit Nvidia DGX an. Es handelt sich um eine konvergierte, aber separat skalierbare Rechen-, Speicher- und Netzwerklösung, die für Nvidia BasePOD und SuperPod validiert ist.
Der Backup-Anbieter Cohesity kündigte auf der GTC 2024 von Nvidia an, dass er Nvidia NIM Microservices und Nvidia AI Enterprise in seine Gaia-Multicloud-Datenplattform integrieren wird, die die Nutzung von Backup- und Archivdatenals Quelle für Trainingsdaten ermöglicht.
Hammerspace hat eine GPUDirect-Zertifizierung mit Nvidia. Hammerspace vermarktet sein Hyperscale NAS als ein globales Dateisystem, das für KI/ML-Workloads und GPU-gesteuerte Verarbeitung entwickelt wurde.
Hitachi Vantara bietet mit Hitachi iQ branchenspezifische KI-Systeme an, die Nvidia DGX- und HGX-GPUs mit dem Speicher des Unternehmens nutzen.
HPE verfügt über GenAI-Supercomputing- und Unternehmenssysteme mit Nvidia-Komponenten, eine RAG-Referenzarchitektur und plant den Einbau von NIM-Microservices. Im März 2024 rüstete HPE seine Alletra MP Storage-Arrays auf, um die doppelte Anzahl von Servern und die vierfache Kapazität im gleichen Rackspace mit 100 Gbps-Konnektivität zwischen den Knoten in einem Cluster zu verbinden.
NetApp verfügt über Produktintegrationen mit BasePOD und SuperPOD. Auf der GTC 2024 kündigte NetApp die Integration von Nvidias NeMo Retriever Microservice, einem RAG-Softwareangebot, mit OnTap Hybrid Cloud Storage für Kunden an.
Pure Storage hat AIRI, eine Flash-basierte KI-Infrastruktur, die mit DGX- und Nvidia OVX-Servern zertifiziert ist und den FlashBlade//S-Storage von Pure nutzt. Auf der GTC 2024 gab Pure bekannt, dass es eine RAG-Pipeline entwickelt hat, die Nvidia NeMo-basierte Microservices mit Nvidia GPUs und seinem Speicher sowie RAGs für bestimmte Branchen nutzt. Seit Juni 2024 ist das Unternehmen auch für Nvidias DGX SuperPod zertifiziert.
Vast Data brachte 2023 seine Vast Data Platform auf den Markt, die seine QLC-Flash- und Fast-Cache-Speichersubsysteme mit datenbankähnlichen Funktionen auf nativer Speicher-I/O-Ebene und DGX-Zertifizierung verbindet.
Im März 2024 präsentierte der Hybrid-Cloud-NAS-Hersteller Weka die Hardware-Appliance WEKApod, die für die Zusammenarbeit mit Nvidias DGX SuperPod AI-Rechenzentrumsinfrastruktur zertifiziert ist.