besjunior - stock.adobe.com

KI-Storage optimal für Machine Learning und Datenanalysen

Kapazität und Performance sind Funktionen von KI-Speicher, die auf unterschiedliche Weise erfüllt werden können. Zu den Lösungen zählen der Multi- und der Two-Tier-Ansatz.

Es gibt viele Wege und Alternativen, denen ein Unternehmen folgen kann, wenn es eine KI-Speicherplattform kauft. Aber ein wichtiges Ziel dabei sollte darin bestehen, ein Produkt zu finden, mit dem das Unternehmen effektiver Daten sammeln und Aufgaben für Machine Learning und künstliche Intelligenz (KI) bewältigen kann.

Einige der wesentlichen Probleme, die mit der Bewertung und der Auswahl von KI-Speicherprodukten zusammenhängen, umfassen diese:

  • Die Speicherplattform muss hohe Performance und Skalierbarkeit bieten und effektiv mit den Kosten umgehen.
  • Die Performance muss sowohl zu hohem Durchsatz als auch zu niedrigen Latenzen führen.
  • Um gute KI-Modelle zu erstellen, muss man viele Terabytes oder Petabytes an Daten zusammenführen, was teuer sein kann. Die Unternehmen müssen sich deshalb der gesamten Managementkosten einer Machine-Learning- und KI-Plattform bewusst sein.

Bei Deep Learning, bei dem Machine-Learning-Algorithmen unbeaufsichtigt arbeiten können, führt das I/O-Profil zu einem hohen Random Access, da aufeinanderfolgende Layer von Deep-Learning-Algorithmen mehrere Schichten von Datenanalysen durchführen. Das Training von Machine Learning und KI läuft in der Regel im Batch-Modus, bei dem Data Scientists KI-Modelle für Machine Learning erzeugen, sie gegen Daten testen und die Modelle mit der Zeit verfeinern. Dieser Ansatz erfordert wegen der schnellen Durchführung niedrige Latenzen, da eine kürzere Testzeit der Modelle zu weniger Wiederholungen und zu einem besseren Modell führt.

Deshalb sollte das besondere Speicherprodukt, das ein Unternehmen auswählt, für die jeweiligen Funktionen und das erforderliche Training von Machine Learning und KI geeignet sein. In jedem Fall führt das Verhältnis von Kosten zu Performance zu einigen Kompromissen.

Der Multi-Tier-Ansatz

Kosten versus Performance ist ein wichtiger Gesichtspunkt, wenn es um den Kauf eines Speicherprodukts geht. Wenn es möglich ist, werden die meisten Unternehmen den überhaupt schnellsten Speicher kaufen. Performance hat jedoch ihren Preis, und in der Regel skalieren hoch-performante Systeme nicht bis in den mehrfachen Petabyte-Bereich. Nimmt man noch die Annahme hinzu, dass der jeweilige zu analysierende Datensatz immer ein Teilbereich aller Datengruppen sein wird, liegt es auf der Hand, dass Storage-Tiering ein notwendiger Bestandteil der Entwicklung von Machine Learning und KI-Datenspeicher ist.

Aber was genau bezeichnet Tiering im Kontext von Machine Learning und KI? Traditionelle Tiering-Produkte waren eine Weiterentwicklung von festen Speicher-Pools in Richtung komplexe Systeme, die die Platzierung von einzelnen Speicherblöcken auf der Basis von Einsatzhäufigkeit und verfügbaren Pool-Kapazitäten optimierten. Aber dieser Ansatz funktioniert nicht gut wegen der Art der Datenverarbeitung bei den Anforderungen von Machine Learning und KI.

Automatisierte Tiering-Produkte gehen davon aus, dass die Daten im Kontext der Wichtigkeit für das Geschäft einen Lebenszyklus durchmachen. Neue Daten sind wichtiger und werden häufiger benutzt. Im Laufe der Zeit vermindert sich der Wert der Daten, und sie können auf billigere und weniger performante Speicherebenen verschoben werden.

Daten, die für Machine Learning und KI genutzt werden, sind andersartig. Ganze Datensätze werden aktiv und für Analysen eingesetzt, wobei die Gesamtheit der Daten zur gleichen Zeit benötigt wird. Dies bedeutet, dass sich die benutzten Daten auf der gleichen Speicherebene mit einer konstanten Performance befinden müssen, weil jeder unterschiedliche Zugang zu ihnen Probleme wie zum Beispiel beim Modell-Training verursachen würde.

Die zufällige Natur der Daten, die bei der Entwicklung von Machine-Learning- und KI-Modellen herangezogen werden, führt zu Speicheralgorithmen, die Daten reaktivieren wollen, die mit der Zeit aus der Bearbeitung herausgefallen sind. Diese Algorithmen gehen von einem kleinen und relativ statischen Dateneinsatz aus, der sich mit der Zeit graduell ändert. Bei Machine Learning und bei KI werden die Zugangsprofile der Daten mehr auf Zufälligkeiten beruhen, was die Vorhersage erschwert, welche Daten im Cache zu behalten sind und welche Größe der Cache oder schnellere Tiers haben müssen.

Das Modell des Two-Tier-Storage

Eine naheliegende Methode, Storage für Machine-Learning- und KI-Prozesse einzusetzen, besteht darin, einfach ein Modell aus zwei Schichten zu verwenden. Der Performance-Tier bietet soviel Performance wie möglich und die niedrigsten Latenzen, wobei er die maximale Größe an Data Sets aufnehmen soll, die das System für die Verarbeitung erwartet.

Hoch-performanter Flash ist teuer, und während sich der Markt in Richtung Flash-Produkte für hohe Kapazitäten wie Triple- und Quadruple-Level Cells (TLC, QLC) bewegt, entsteht gleichzeitig ein neuer Markt auf der hoch-performanten Seite für Produkte mit niedrigen Latenzen wie zum Beispiel Samsung Z-NAND und Toshiba XL-Flash. Diese ergänzen Storage-Class-Memory-Produkte, die für Low-latency-I/O-Systeme entwickelt worden waren. Vast Data verwendet zum Beispiel sowohl Quadruple-Level Cells als auch die Optane-Technologie von Intel, um einen hoch-performanten und skalierbaren Speicher für unstrukturierte Daten mit NFS- und S3-API-Support zur Verfügung zu stellen.

Diese Tier-0-Produkte benutzen NVMe für die Verbindungen, entweder intern oder über ein Speichernetzwerk. NVMe optimiert den I/O-Stack oder das I/O-Protokoll, im Unterschied zu den traditionellen SAS- und SATA-Verbindungen. Das Resultat schlägt sich in niedrigeren Latenzen und einem größeren Durchsatz nieder, aber auch in einer größeren Auslastung der Plattform, da die Serverprozessoren im Vergleich nicht so lange warten, um die I/O-Prozesse abzuschließen.

Produkte wie zum Beispiel Pure Storage AIRI, IBM Spectrum Storage for AI und NetApp All Flash FAS A800 verwenden alle intern NVMe, um die größtmögliche Medien-Performance zu erreichen. Dell EMC und DataDirect Networks (DDN) verwenden Scale-out File-Systeme aus ihren Produktlinien, um Referenzarchitekturen für Machine Learning und KI zu unterstützen.

Der Kapazitäts-Tier muss alle Daten der KI-Modelle sicher für ausgedehnte Zeiträume speichern, in der Regel Monate oder Jahre. Im Ergebnis sind skalierbare Plattformen, die einen hohen Grad an Dauerhaftigkeit/Beständigkeit besitzen, erforderlich, um die für Machine Learning und KI benötigten Datenmengen zu verwalten. Der Markt für Object Storage hat sich auch in die Richtung entwickelt, eine Reihe von hoch-skalierbaren und dauerhaften KI-Speicherprodukten hervorzubringen.

Was genau ist Dauerhaftigkeit?

In einem typischen Speichersystem werden Daten dadurch geschützt, dass man ein Schema für eine Redundanz der auf der Festplatte gespeicherten Daten verwendet. Wenn eine einzelne Komponente ausfällt, werden die zusätzlichen Datenkopien verwendet, um den Verlust auszugleichen und die Daten wiederherzustellen, nachdem die ausgefallenen Komponenten ersetzt worden sind.

Obwohl RAID 5 und höhere RAID-Konfigurationen Schutz vor Plattenausfällen bieten, werden zusätzliche Systeme zum Schutz vor groß angelegten Katastrophen wie zum Beispiel Ausfälle des ganzen Rechenzentrums benötigt. Die Dauerhaftigkeit oder Reduzierung des Datenverlusts ist teuer einzurichten, wenn traditionelle Systeme skalieren.

Erasure Coding baut Redundanz in die Daten ein, so dass der Verlust von Laufwerken, Servern oder sogar ganzen Rechenzentren keinen Datenverlust verursacht. Die zerstreute Charakteristik der mit Erasure Coding bearbeiteten Daten bedeutet, dass Speichersysteme bis zur Größe von mehreren Petabytes ohne lokalen oder geographischen Datenschutz erzeugt werden können – ohne die Ausgaben und den Overhead des Managements mehrerer Systeme.

Objektspeicher bieten Skalierbarkeit und Dauerhaftigkeit für Daten, die über lange Zeiträume hinweg – in der Regel mehrere Jahre – aufbewahrt werden müssen. Um jedoch Kostenvorteile zu erzielen, müssen Produkte für Object Storage auf Basis von billigen Speicherkomponenten wie Festplatten mit einigen Caching-Fähigkeiten erstellt werden. Damit sind sie weniger geeignet für die tägliche Verarbeitung von Machine-Learning- und KI-Daten, eignen sich aber gut für langfristige Aufbewahrung.

Ein geographisch verteilter Object Storage ist auch in der Lage, Daten von verschiedenen Orten und Quellen aufzunehmen, zu denen dann ein externer Zugang von verschiedenen Orten und Quellen aus möglich ist. Dies kann zum Beispiel nützlich sein, wenn die Verarbeitung von Daten eine Mischung von On-Premises- und Public-Cloud-Infrastruktur nutzt. Geographische Verteilung ist ein Feature der Ring-Plattform von Scality, die mit Produkten von Hewlett Packard Enterprise und WekaIO zusammenarbeitet, um eine Two-Tier-Speicherarchitektur zu schaffen.

Hybride Storage-Architekturen

Die Herausforderung für Unternehmen besteht darin, wie man eine hybride Architektur aufbaut, die sowohl hoch-skalierbaren und hoch-performanten Speicher miteinander vereinigt. Systeme für Object Storage versetzen Unternehmen in die Lage, die meisten Daten zu speichern, während einige Angebote Performance-Knoten nutzen, die aktive Daten auf Servern mit hoch-performantem Flash speichern.

Der Vorteil dieses Ansatzes besteht darin, dass sowohl Knoten für Kapazität als auch für Performance zu den Produkten hinzugefügt werden können, um sie in die eine oder andere Richtung voranzutreiben. Cloudian bietet zum Beispiel Hardware-Appliances an, die sowohl Funktionen für Erweiterung als auch für Performance zur Verfügung stellen.

Systeme, die für High-Performance-Storage gebaut werden, müssen für die Skalierung des Ganzen zu verarbeitenden Data Sets geeignet sein. In diesen Szenarios werden die Daten von und zu der High-Performance-Plattform verschoben, da mehrfache KI Data Sets über einen längeren Zeitraum hinweg bearbeitet werden.

Die Storage-Architektur muss in der Lage sein, die Netzwerkbandbreite zur Verfügung zu stellen, die für das Verschieben der Daten in beide Richtungen und für die Anforderungen der KI-Plattform erforderlich ist. Produkte wie zum Beispiel die DGX-1- und DGX-2-Plattformen von Nvidia können Dekaden von Gigabytes an Daten pro Sekunde aufnehmen. Um damit Schritt halten zu können, müssen die Verbindungen zwischen Compute und Storage bei KI-Speicherprodukten Low-Latency-InfiniBand oder 100 Gigabit Ethernet sein.

Software-defined Storage für KI-Produkte

Storage-Systeme für Machine Learning und KI einzurichten ist nicht identisch mit dem Aufstellen einer Appliance. Es sind neue hoch-performante KI-Speicherprodukte verfügbar, die im wesentlichen Software-defined Storage (SDS) sind. Diese Produkte profitieren von den Vorteilen neuer Medien – einschließlich NVMe und in einigen Fällen Persistent Memory oder Storage-Class Memory.

Ein Vorteil von SDS-Produkten besteht in ihrer Verwendbarkeit für die Public Cloud, da sie über die Infrastruktur einer Public Cloud hinweg erstellt und dynamisch skaliert werden können. Dieses Betriebsmodell kann für bestimmte Situationen verlockend sein, wenn das Ausmaß der Infrastruktur unbekannt ist oder sie nur für kurze Zeit gebraucht wird.

Systeme, die für High-Performance-Storage gebaut werden, müssen für die Skalierung des Ganzen zu verarbeitenden Data Sets geeignet sein.

WekaIO bietet in diesem Umfeld seine softwarebasierte Scale-out-Speicherplattform Matrix an, die vor Ort im Rechenzentrum auf Servern mit NVMe-Laufwerken oder in einer Public Cloud von AWS mit NVMe-fähigen Instanzen von Elastic Compute Cloud installiert werden kann. Excelero NVMesh ist ein anderes SDS-Produkt, das die Performance linear über mehrere Server- und Storage-Systeme hinweg steigert und das in der Regel zusammen mit IBM Spectrum Scaleto ein Scale-out-File-System erzeugt.

Datenmobilität

Die Kombination von Kapazitäts- und Performance-Tiers in einem einzigen Produkt erfordert manuelle oder automatische Prozesse, um die Daten zwischen den Performance- und Kapazitäts-Ebenen zu verschieben, sowie Metadaten, um zu verfolgen, ob die Daten erfolgreich bewegt worden sind.

Einige KI-Speicherprodukte können direkt an Object Storage angeschlossen werden, was die Prozesse vereinfacht. Die Public Cloud kann eine leistungsstarke Option für die Entwicklung von Machine Learning und KI sein, da das Verschieben von Daten zwischen internen Cloud-Diensten keine Ausgangskosten für Speicher erzeugt. Zum Beispiel kann WekaIO Matrix Daten innerhalb und außerhalb des Rechenzentrums replizieren und auf Object Storage archivieren.

Alles zusammenbringen

Unternehmen, die On-Premises Storage für Workloads von Machine Learning und KI einrichten wollen, müssen auf Kapazität und Performance achten. Den Performance-Tier können sie entweder von Grund auf errichten oder sie installieren ein Produktpaket, das aus einer effektiven Converged Infrastructure für Machine Learning besteht.

In der Eigenbauvariante können Unternehmen eine lokale Appliance einrichten oder SDS benutzen. SDS ermöglicht es den Unternehmen, Storage als einen abgetrennten Layer einzurichten oder eine hyperkonvergente Infrastructure (HCI) zu erstellen. Wenn die Daten lokal aufbewahrt werden, kann das Unternehmen Appliances verwenden oder der Software-defined Richtung folgen, um mit Object Storage einen Kapazitäts-Layer einzurichten.

Wenn sie sich der Public Cloud zuwenden, können Unternehmen die dortigen Services wie zum Beispiel Object und Block Storage nutzen. File-Storage-Produkte müssen noch immer einen langen Weg zurücklegen, um die niedrigen Latenzen zu erreichen, die Anwendungen für Machine Learning und KI benötigen. Stattdessen werden Unternehmen wahrscheinlich Block Storage einsetzen, besonders zusammen mit SDS oder KI-Speicherprodukten, die einen File-Services-Layer zu den ursprünglichen Block-Ressourcen hinzufügen.

Nächste Schritte

Mit Künstlicher Intelligenz das Storage-Management optimieren

So verändert KI die Speicherbranche

Was Sie beim Einsatz von Künstlicher Intelligenz beachten sollten

Erfahren Sie mehr über Cloud Storage