vchalup - stock.adobe.com

Storage-Strategien fūr Machine Learning- und KI-Workloads

Erfahren Sie, wie Unternehmen mit maschinellem Lernen und KI umsetzbare Erkenntnisse gewinnen und welche Herausforderungen sie bei ihren Speicherstrategien bewältigen müssen.

Unternehmen benutzen in zunehmendem Maß digitale Informationen, um ihre Konkurrenzfähigkeit zu verbessern und größere Gewinne zu erzielen. Zu dieser Strategie gehört oft, Tools und Technologien von Machine Learning (ML) und künstlicher Intelligenz (KI) einzusetzen. Aber KI-Workloads haben deutlich unterschiedliche Ansprüche an Speicher und Computing als gewöhnliche Workloads.

Workloads für KI und Machine Learning erfordern große Datenmengen, um sowohl die Datenmodelle zu bauen und zu trainieren, als auch um sie am Laufen zu halten. Wenn es sich um Speicher für diese Workloads dreht, dann finden muss man vor allem hochperformantem und langfristigen Datenspeicher besonders berücksichtigen.

Unternehmen können existierende Datenquellen verwenden, um KI-Modelle zu bauen und zu trainieren, die Einsichten zur Verbesserung der Geschäftsprozesse vermitteln, Kunden genauer ansprechen oder bessere Produkte hervorbringen. Prozesse für Machine Learning/KI laufen in der Regel in zwei Schritten ab. Im ersten Schritt benutzt ein Unternehmen Daten, um Modelle für ML/KI zu definieren und zu bauen: Sie bestehen in erster Linie aus Algorithmen, die von einigen Geschäftsprozessen verwendet werden.

Der zweite Schritt – das Training – erfordert Machine-Learning-Algorithmen, um während der Entwicklung von ML/KI-Modellen wiederholt große Mengen an Daten ablaufen zu lassen.

Sobald ein Unternehmen ein Modell erzeugt, wird es für eine Datenquelle bereitgestellt, um neue Ergebnisse zur Steigerung der Geschäftsergebnisse zu produzieren. Dies ist jedoch nicht das Ende des Prozesses. Das Design von ML/KI-Modellen benutzt einen Wiederholungsprozess, in dem Modelle entwickelt, bewertet und neu erstellt werden, wenn neue Daten hinzugefügt und das Modell so verfeinert wird. Diese Schleife wird kontinuierlich wiederholt.

Wenn man die Storage-Anforderungen für KI-Workloads prüft, sollte man sich klar darüber sein, dass es bereits in den Speicherplattformen selbst einen verbreiteten Einsatz von KI gibt. Die I/O-Profile von Anwendungen sind nicht vollständig auf einer Zufallsbasis angelegt, selbst wenn man die Auswirkung der I/O-Blender der Virtualisierung berücksichtigt. Dieser Mangel an Vorhersehbarkeit ermöglicht es den Herstellern, ihre Speichersysteme schrittweise in Richtung der allgemeinen Plattform-Performance zu verbessern.

Die meisten modernen, sich selbst regulierenden Funktionen wurden entwickelt, um ein Unternehmen dabei zu unterstützen, mehrere Speicherschichten in einer einzigen Appliance zu verwalten. Produkte wie zum Beispiel Fully Automated Storage Tiering (FAST) von Dell EMC bewegen nicht-aktive Daten auf billigere Speicherschichten, während sie aktive Daten dynamisch auf schnellere Medien verschieben. Heute ist diese Anforderung aufgrund der All-Flash-Systeme weniger relevant, sie wird aber wichtiger werden, wenn verschiedene Flash-Schichten in den Unternehmen eine größere Verbreitung finden.

Daten aus der Umgebung zu nutzen, um die Zuverlässigkeit der Plattform zu verbessern, ist wahrscheinlich der interessanteste Anwendungsfall von KI im Storage-Bereich. Hersteller wie Hewlett Packard Enterprise und Pure Storage sammeln Systeminformationen, die Unregelmäßigkeiten der Performance entdecken und lösen und die potentielle Bugs erkennen.

Dieser Ansatz einer „Wisdom of the Crowd“ (Weisheit der Masse) bedeutet, dass die Laufzeit von Dual-Controller-Plattformen wie zum Beispiel Nimble Storage um einen Betrag wie 99,9999 Prozent oder mehr verbessert werden kann, zumindest laut Hersteller.

Eine Strategie für KI-Storage entwickeln

Wenn Unternehmen ihre Storage-Strategie entwickeln, um von den Vorteilen von Machine Learning und KI zu profitieren, sind sie mit zwei wesentlichen Herausforderungen konfrontiert:

  1. Langfristiges Speichern und Aufbewahren von Daten. Zu Beginn einer ML/KI-Entwicklung ist es eventuell unklar, welche Daten nützlich sind und welche wieder ausrangiert werden können. Langzeit-Archive wie Object Stores oder die Public Cloud können Daten in Plattformen mit ordentlicher Index-Struktur als eine Art Data Lake aufbewahren.
  2. High-Performance-Optionen. Ab einem gewissen Punkt muss ein Unternehmen aktive Daten zur Weiterverarbeitung auf eine Plattform mit hoher Performance verschieben. Hersteller haben Produkte herausgebracht, die ihre schnellsten Speichersysteme mit Hardware für Machine Learning wie zum Beispiel die Nvidia-GPUs DGX-1 und DGX-2 verbinden.

Beim Aufbau der richtigen Plattform können hohe Kosten entstehen, und dieser Prozess erfordert außerdem bestimmte Fähigkeiten, damit Hardware für Machine Learning wie GPUs kontinuierlich mit Daten versorgt werden kann. Vorgefertigte Speichersysteme für KI-Produkte können deshalb attraktiver sein, da sie messbare Performance-Niveaus bieten. Als Resultat dieses Trends optimieren Hersteller ihre Speicherprodukte mehr durch Features für KI- als für allgemeine Workloads.

Storage für AI-Workload-Anforderungen

ML- und KI-Workloads besitzen sehr spezifische Speicheranforderungen. Zu ihnen gehören:

Skalierbarkeit. Machine Learning verlangt von den Unternehmen, große Mengen an Daten zu verarbeiten. Aber exponentiell mehr Datenmengen zu verarbeiten, führt nur zu linearen Verbesserungen der KI-Modelle. Um die Genauigkeit der ML/KI-Modelle zu erhöhen, müssen die Unternehmen deshalb zunehmend jeden Tag mehr Daten sammeln und speichern.

Zugang. Daten müssen kontinuierlich zugänglich sein. ML/KI-Training fordert vom Speichersystem, ganze Datensätze zu lesen und wieder zu lesen, in der Regel auf Zufallsbasis. Dies bedeutet, dass man keine Archivsysteme wie Tape einsetzen kann, die nur sequentielle Zugangsmethoden bieten.

Latenzen. Latenzen der I/O-Systeme sind wichtig, um ML/KI-Modelle zu erstellen und zu nutzen, weil Daten viele Male gelesen und wieder gelesen werden. Werden die I/O-Latenzen reduziert, kann das zu einer Verminderung der Trainingszeiten für ML/KI um Tage oder Monate führen. Eine schnellere Entwicklung von Modellen führt direkt zu größeren Geschäftsvorteilen.

Durchsatz. Naturgemäß ist der Durchsatz von Speichersystemen ebenfalls ein kritischer Faktor bezüglich eines wirksamen ML/AI-Trainings. Trainingsprozesse bewältigen massive Datenmengen, die sich oft auf mehrere Terabytes pro Stunde belaufen. Für viele Storage-Systeme kann es eine Herausforderung darstellen, dieses Niveau an wahllos benutzten Daten zur Verfügung zu stellen.

Paralleler Zugang. Um einen hohen Durchsatz zu erzielen, teilen ML/KI-Trainingsmodelle ihre Aktivität in mehrere parallele Aufgaben auf. Dies bedeutet oft, dass Machine-Learning-Algorithmen zur gleichen Zeit die gleichen Files bei mehreren Arbeitsprozessen ansteuern – eventuell auf mehreren physischen Servern. Die Speichersysteme müssen mit mehreren konkurrierenden Anfragen ohne Beeinträchtigung der Performance zurechtkommen.

Diese Anforderungen sind naturgemäß sehr spezifisch und auf Performance konzentriert. Im allgemeinen verwenden ML/KI unstrukturierte Daten – entweder als Objekte oder Dateien –, was dann den Typ der Speichersysteme bestimmt, die ein Unternehmen verwenden kann.

Vor- und Nachteile verschiedener Storage-Technologien

Wenn man die Wahl hat, besteht der schnellste Weg, jeden Datensatz zu verarbeiten, darin, ihn im Memory zu speichern, da Dynamic RAM (DRAM) mit Geschwindigkeit von Nanosekunden funktioniert. Serverplattformen sind jedoch in ihrer Memory-Kapazität beschränkt. Zum Beispiel ist sogar ein einziger Server mit einer maximalen Kapazität von sechs Terabyte DRAM zu klein für die Verarbeitung von ML/KI-Workloads.

Daten aus der Umgebung zu nutzen, um die Zuverlässigkeit der Plattform zu verbessern, ist wahrscheinlich der interessanteste Anwendungsfall von KI im Storage-Bereich.

Dies bedeutet, dass Machine-Learning-Algorithmen einen Zugang zu dauerhaftem beziehungsweise persistentem Speicher in irgendeiner Form brauchen. Und das stellt eine ernsthafte Herausforderung dar. Wobei verschiedene Speicherprodukte Vor- und Nachteile haben.

  • Block-basierter Storage hat in der Vergangenheit die niedrigsten I/O-Latenzen hervorgebracht, er bietet aber keine Skalierbarkeit für Umgebungen im mehrfachen Petabyte-Bereich. Die Kosten spielen bei hochperformanten Block-Produkten ebenfalls eine Rolle. Einige Hersteller bauen hybride Optionen ein, die Block- und skalierbare File-Systeme miteinander verbinden.
  • File-basierter Storage bietet Skalierbarkeit und die richtige Zugangsmethode für unstrukturierte Daten. Aber historisch betrachtet haben File-basierte Produkte nicht die höchsten Performance-Niveaus zur Verfügung gestellt.
  • Object Storage verfügt über den höchsten Grad an Skalierbarkeit und ein vereinfachtes Zugangsprotokoll mittels HTTP(S). Object-Speicher können gut verschiedene, miteinander konkurrierende I/O-Anfragen verwalten, aber sie bieten im allgemeinen nicht den besten Durchsatz oder die niedrigsten Latenzen. Dies kommt daher, weil die meisten Object-Storage-Systeme auf sich rotierenden Medien wie Festplatten beruhen, um Kosten zu sparen.

Angesichts der aufgeführten verschiedenen Nachteile verwenden einige ML/KI-Installationen eine Mischung von Plattformtypen, die die Mehrheit der Daten zum Beispiel in einem Object Store speichern und die dann den aktiven Datensatz zu einem hochperformanten Dateisystem als Teil des Trainingsprozesses verschieben. Aber man sollte dies nach Möglichkeit vermeiden, da man besondere Verzögerungen beim Verarbeitungsprozess hervorrufen kann, wenn die Daten hin- und hergeschoben werden.

Wie Unternehmen ML/KI verwenden

Welche Arten von ML/KI-Workloads verwenden Unternehmen heute? Es liegt auf der Hand, dass Unternehmen, die über große Mengen an Eingangsdaten verfügen, im Vorteil sind.

Die wahrscheinlich am meisten zitierte Anwendung sind autonome Fahrzeuge. Self-driving Cars können pro Tag mehrere Terabytes an Daten pro Fahrzeug sammeln. Dies stellt selbst bei einer kleinen Flotte von Fahrzeugen eine üppige Datenmenge zur Verfügung.

Die Luftfahrtindustrie benutzt KI intensiv für das Sammeln von statistischen Daten, während Flugzeuge im Betrieb sind, sowie für den effizienten Umgang mit dem Gepäck und für Face Recognition (Gesichtserkennung). Ferner befinden sich Produkte für Konsumenten in Entwicklung, mit denen man anhand von Smart Devices wie Alexa allgemeine Fragen beantworten kann.

Und Smart Cities sammeln alles von Verkehrsmustern bis zum Energieverbrauch, um auf diese Weise bessere und sichere städtische Umgebungen für ihre Bewohner zu schaffen.

Ein Überblick über den ML/KI-Markt

Viele Hersteller verkaufen Stand-alone-Lösungen und vorgefertigte Speicherprodukte für ML- und KI-Workloads. Pure Storage, Dell EMC, IBM und NetApp bieten alle eigene Produkte des Typs Converged Infrastructure an, die Storage, Networking und Compute zusammen mit DGX-CPUs von Nvidia in ein einziges Rack packen. Das Produkt von DataDirect Network (DDN) bringt Scale-Out File Storage zusammen mit den DGX-1-GPUs von Nvidia.

WekaIO und Excelero bieten softwarebasierte Produkte an, die einen Server-Cluster in ein hochperformantes Storage-System für AI verwandeln. Das Produkt von WekaIO ist file-basiert, während das System von Excelero Block-Speicher bringt, den Unternehmen mit einem Scale-Out-Dateisystem kombinieren können. Anwender können dann diese Produkte in KI-Systeme nach ihrem eigenen Entwurf umbauen.

Vast Data hat ein hochperformantes und extrem skalierbares Storage-Produkt entwickelt, das ML/KI-Daten im Umfang von mehreren Petabytes als Quelle für Trainingsmodelle von Machine Learning aufnehmen kann.

Nächste Schritte

Wie künstliche Intelligenz bereits im Storage-Management zum Einsatz kommt.

Wie maschinelles Lernen Speicherprobleme eliminieren kann

Speicheroptimierung: Analysen von unstrukturierter Daten sorgen für Effizienz

Erfahren Sie mehr über Storage Performance