Getty Images/iStockphoto
Storage für KI: Was bei der Wahl wichtig ist
Die Liste der GenAI-fokussierten Speicheroptionen wächst mit den Innovationen von Herstellern wie Pure, Dell oder HPE. Dabei sollten Anwender bei der Wahl einiges beachten.
Der Anstieg generativer KI-Workloads hat die Speicherinfrastruktur von Rechenzentren erheblich unter Druck gesetzt, da KI-Workloads eine erhebliche Rechenleistung, einen hohen Datendurchsatz und eine große Speicherkapazität benötigen, um Modelle zu trainieren und Inferenzaufgaben durchzuführen.
Aus diesem Grund haben die meisten großen Speicheranbieter ihre Systeme so umgestaltet, dass sie massive KI-Workloads unterstützen, viele davon durch Partnerschaften mit Nvidia. Einige haben auch generative KI (GenAI) direkt in ihre Infrastruktur integriert, um IT-Verwaltungsaufgaben, wie zum Beispiel die Speicherverwaltung, zu automatisieren.
Die großen Cloud-Speicherplattformen, darunter AWS S3, Google Cloud Storage und Microsoft Azure, bieten eine Reihe von Speicherdiensten an, die für KI optimiert sind, darunter Objektspeicher, Blockspeicher und Dateispeicher.
Darüber hinaus haben spezialisierte Speicheranbieter Storage-Systeme auf den Markt gebracht, die auf KI-Workloads zugeschnitten sind. Diese Anbieter offerieren Funktionen wie hochleistungsfähige All-Flash-Arrays, Objektspeicher und eine in die Cloud integrierte Infrastruktur, um die besonderen Anforderungen von GenAI-Anwendungen zu erfüllen.
Speicherprodukte für KI
Auf seiner Hausmesse Pure Accelerate 2024 stellte der Hersteller Pure Storage einen KI-Copiloten vor, der IT-Administratoren bei der Verwaltung von Speicherflotten mithilfe natürlicher Sprache (NLP) unterstützt. Der Copilot nutzt Datenerkenntnisse von Pure-Kunden, um Probleme zu untersuchen und Daten proaktiv zu schützen. In ähnlicher Weise lieferte Dell im Mai 2024 einen generativen KI-Assistenten für Apex aus, der eine natürlichsprachliche Schnittstelle zur Beantwortung von Infrastrukturfragen bietet.
Pure, das 2018 mit dem AIRI-System schon früh eine KI-fokussierte Infrastruktur angeboten hat, offeriert zudem ein Storage-as-a-Service-System für KI auf den Markt gebracht. Evergreen One for AI bietet garantierte Speicherleistung für GPUs zur Unterstützung von Trainings-, Inferenz- und HPC-Workloads.
Neben Pure Storage gibt es weitere Beispiele für Speichersysteme, die GenAI unterstützen:
- Dell AI Factory, ein Portfolio aus Hardware, Software und Services zur Unterstützung von KI, umfasst ein PowerScale Scale-Out-Dateisystem, das für unstrukturierte Daten und Schulungen angeboten wird.
- Hitachi Vantara bietet mit Hitachi iQ branchenspezifische KI-Systeme an, die neben den Speichersystemen des Unternehmens auch Nvidia DGX- und HGX-GPUs nutzen.
- HPE hat seine Alletra MP-Speicher-Arrays aufgerüstet, um eine höhere Serverkonnektivität und -kapazität zu unterstützen, und gleichzeitig Nvidias NIM-Microservices in seine GenAI-Supercomputing- und Unternehmenssysteme integriert.
- IBM Spectrum Storage for AI, integriert mit Nvidia DGX, bietet ein konvergentes, skalierbares System, das Compute, Storage und Networking umfasst und auf KI-Workloads zugeschnitten ist.
- NetApp bietet Produktintegrationen mit Nvidias BasePod und SuperPod sowie die Integration von Nvidias NeMo Retriever Microservices in seinen OnTap Hybrid Cloud Storage.
- Vast Data brachte 2023 seine Vast Data Platform auf den Markt, die seine QLC-Flash- und Fast-Cache-Speichersubsysteme mit datenbankähnlichen Fähigkeiten auf der nativen Speicher-I/O-Ebene und DGX-Zertifizierung verbindet.
- Weka, ein Hybrid-Cloud-NAS-Anbieter, liefert eine Hardware-Appliance, die für die Zusammenarbeit mit Nvidias DGX SuperPod AI-Infrastruktur zertifiziert ist.
- Western Digital hat Hochleistungs-SSDs und HDDs mit hoher Kapazität für KI-Workloads auf den Markt gebracht.
Überlegungen zu Funktionen
Bei der Bewertung von Infrastrukturanbietern zur Unterstützung von KI-Initiativen sollten Sie auf die folgenden Merkmale achten.
Skalierbare und flexible Rechenleistung. Ein Speichersystem für KI-Workloads sollte skalierbare und flexible Rechenressourcen bieten, einschließlich der Verwendung von GPUs und Tensor Processing Units (TPU), um das Training und die Ausführung komplexer KI-Modelle zu unterstützen. Die Infrastruktur sollte auch in der Lage sein, dynamisch nach oben oder unten zu skalieren, um eine effiziente Ressourcennutzung zu gewährleisten.
Netzwerk mit hoher Bandbreite. KI-gestützter Speicher sollte Netzwerke mit niedriger Latenz und hoher Bandbreite bieten, um die Übertragung großer Datensätze und die Konnektivität von Rechenressourcen zu unterstützen. Die Netzwerkinfrastruktur sollte auch optimiert werden, um potenzielle Engpässe zu entschärfen und geringe Inferenzzeiten für KI-gesteuerte Anwendungen zu gewährleisten.
Intelligente Datenverwaltung. Der generative KI-Assistent in Speicherprodukten sollte in der Lage sein, die Speicherinfrastruktur automatisch zu verwalten und zu konfigurieren, einschließlich der Optimierung der Workload-Platzierung, der Vorhersage und Vermeidung von Systemausfällen und der proaktiven Planung des Ressourcen- und Kapazitätsbedarfs.
KI-gestützte Datenverwaltungsfunktionen sollten auch intelligente Datenklassifizierung, richtliniengesteuerte Datenschutzaufgaben und verbesserte Sicherheitsmaßnahmen zum Schutz der Unternehmensdaten umfassen.
Integration generativer KI. Das System sollte GenAI und große Sprachmodelle nahtlos integrieren, um den Datenbetrieb über die gesamte Daten-Pipeline hinweg zu verbessern. Die KI-Funktionen sollten automatisierte Datenbeobachtung, proaktive Problemerkennung und -lösung sowie die Erstellung von Berichten und Visualisierungen ermöglichen, um die Produktivität des Datenteams zu steigern.
Vorbereitung auf Herausforderungen beim KI-Storage
Die Einführung von Speicher für GenAI-Workloads birgt einige wichtige Herausforderungen und Risiken, auf die sich IT-Experten vorbereiten müssen, um eine erfolgreiche Implementierung zu gewährleisten.
Datenvolumen. Generative KI-Modelle verbrauchen und erzeugen riesige Datenmengen, oft in Echtzeit. Die Speicherinfrastruktur muss in der Lage sein, das hohe Volumen und die Geschwindigkeit der Daten zu bewältigen. Eine unzureichende Speicherkapazität und Leistung kann zu Engpässen führen, die sich auf die Trainings- und Schlussfolgerungszeiten der Modelle auswirken.
Kapazitätsplanung. Evaluieren Sie Speichertypen, die skalierbare, leistungsstarke Funktionen bieten, wie zum Beispiel All-Flash-Arrays, Objektspeicher und verteilte Dateisysteme. Führen Sie eine gründliche Kapazitätsplanung und Stresstests durch, um sicherzustellen, dass der Speicher das aktuelle und zukünftige Datenwachstum bewältigen kann.
Datensicherheit und Governance. Sensible Daten, die für das Training von GenAI-Modellen verwendet werden, müssen gesichert und verwaltet werden. Ein unsachgemäßer Umgang mit Daten kann zu Datenschutzverletzungen, Verstößen gegen die Compliance und Reputationsschäden führen. Es ist wichtig, robuste Datensicherheitsmaßnahmen zu implementieren, einschließlich Verschlüsselung, Zugriffskontrollen und Verfolgung des Datenverlaufs. Stellen Sie außerdem sicher, dass die Speicherumgebung mit den Data-Governance-Richtlinien Ihres Unternehmens und den gesetzlichen Anforderungen übereinstimmt.
Komplexität der Infrastruktur. Die Integration der Speicherinfrastruktur in das breitere KI-Ökosystem, einschließlich Rechen-, Netzwerk- und Softwarekomponenten, kann kompliziert sein. Ein modularer, offener Architekturansatz ermöglicht die nahtlose Integration mit verschiedenen KI-Frameworks und -Tools.
Anbieter-Lock-in. Die Auswahl eines Speichersystems, das eng an eine bestimmte KI-Plattform oder einen Cloud-Anbieter gekoppelt ist, kann die Flexibilität einschränken und das Risiko einer Anbieterbindung erhöhen. Speicheranbieter, die herstellerunabhängige Kompatibilität bieten und es dem Benutzer ermöglichen, Komponenten von verschiedenen Anbietern zu kombinieren, sind eine Option, um dieses Problem zu vermeiden.