besjunior - stock.adobe.com
Sechs Kriterien für die Wahl eines KI-Storage
Der Kauf der falschen Storage-KI-Plattform könnte schwerwiegende Folgen haben. Sechs Kriterien können sich auf die Produktauswahl und -strategie eines Unternehmens auswirken.
Künstliche Intelligenz (KI) und maschinelles Lernen sind darauf ausgerichtet, zu einem der wichtigsten Instrumente zu werden, um Unternehmen zu helfen, Wettbewerbsvorteile durch die Nutzung ihrer digitalen Kernressourcen zu erzielen. Aber bevor ein Unternehmen KI-Speicher kauft, muss es eine Reihe von Anforderungen berücksichtigen, die darauf basieren, wie Daten von maschinellen Lernplattformen erfasst, verarbeitet und gespeichert werden.
Lassen Sie uns zunächst den Lebenszyklus der von maschineller Lernsoftware verwendeten Daten untersuchen, da dies hilft zu verstehen, was bei der Auswahl von Speicher für KI-Anwendungen beachtet werden sollte. Zunächst muss ein Unternehmen Daten erfassen, um maschinelles Lernen oder KI-Algorithmen zu trainieren. Dies sind Softwarewerkzeuge, die Daten verarbeiten, um eine Aufgabe zu lernen, wie zum Beispiel das Identifizieren von Objekten, das Verarbeiten von Videos oder das Verfolgen von Bewegungen. Daten können aus einer Vielzahl von Quellen stammen und sind in der Regel unstrukturiert, wie beispielsweise Objekte und Dateien.
Der Trainingsprozess basiert auf Datenbeständen und nutzt maschinelles Lernen oder KI-Software, um Algorithmen für die Verarbeitung zukünftiger Datenquellen zu erstellen. Bei der Schulung oder Entwicklung eines Algorithmus verarbeitet die KI-Software Quelldaten, um ein Modell zu entwickeln, das die Einsicht schafft oder die Vorteile, die ein Unternehmen erhalten möchte.
Die Entwicklung von Algorithmen für das maschinelle Lernen wird selten als ein einziger Prozess durchgeführt. Da Unternehmen immer neue Daten sammeln, werden die Algorithmen verfeinert und verbessert. Das bedeutet, dass wenig Daten gelöscht werden, sondern dass die Datenmengen anwachsen und mit der Zeit wieder aufbereitet werden.
Kriterien für den Kauf von KI-Storage
Bevor ein Unternehmen Speicher für eine KI-Plattform auswählt, muss es zunächst Folgendes berücksichtigen:
1. Kosten. Der Preis der KI-Speicherung ist ein kritischer Faktor für Unternehmen. Natürlich werden die Betriebsleitung und die an Kaufentscheidungen Beteiligten wollen, dass der Speicher so kostengünstig wie möglich ist, und in vielen Fällen, wird sich das auf die Produktauswahl und -strategie eines Unternehmens auswirken.
2. Skalierbarkeit. Ich habe bereits die Notwendigkeit hervorgehoben, große Datenmengen zu sammeln, zu speichern und zu verarbeiten, um maschinelles Lernen oder KI-Modelle zu erstellen. Algorithmen des maschinellen Lernens erfordern eine exponentielle Zunahme der Quelldaten, nur um lineare Verbesserungen der Genauigkeit zu erzielen. Die Erstellung zuverlässiger und genauer maschineller Lernmodelle kann Hunderte von Terabyte oder sogar Petabyte an Daten erfordern, und diese werden mit der Zeit immer größer.
Der Aufbau von Speichersystemen im Petabyte-Bereich bedeutet in der Regel die Verwendung von Objektspeichern oder Scale-Out-Dateisystemen. Moderne Objektspeicher können zwar den Kapazitätsbedarf von KI-Workloads decken, aber sie können möglicherweise nicht mit anderen Kriterien, wie zum Beispiel der hohen Leistungsanforderung, mithalten. Scale-Out-Dateisysteme können eine hohe Performance und gute Skalierbarkeit bieten, aber die Speicherung ganzer Datensätze auf einer einzigen Plattform kann teuer sein. Block Storage sind aufgrund der Skalierbarkeitsanforderungenund der Kosten von Produkten mit hoher Kapazität in der Regel nicht die richtige Option für maschinelles Lernen oder KI. Die einzige Ausnahme bildet hier eine Public Cloud, die hier später näher beleuchtet wird.
Schwankungen der Speicherkosten führen zur Idee des Storage Tiering oder der Verwendung mehrerer Speichermedienund -ebenen zur Sicherung von Daten. Beispielsweise ist ein Objektspeicher ein gutes Ziel für die Ablage großer Mengen inaktiver KI-Daten. Wenn Daten für die Verarbeitung benötigt werden, können sie in einen leistungsstarken Speicher-Cluster oder Knoten innerhalb eines Objektspeichers verschoben werden, die für hohe Leistung ausgelegt sind, und die Daten können nach Abschluss der Verarbeitung zurückgeschoben werden.
3. Performance. Es gibt drei Aspekte bei der Speicher-Performance für KI-Daten. Erstens, und vielleicht das Wichtigste, ist die Latenz. Diese legt fest, wie schnell jede I/O-Anforderung, die die Software stellt, verarbeitet wird. Niedrige Latenzzeiten sind wichtig, da die Verbesserung der Latenz einen direkten Einfluss darauf hat, wie lange es dauert, maschinelles Lernen oder KI-Modelle zu erstellen. Die Entwicklung komplexer Modelle kann Wochen oder Monate in Anspruch nehmen. Durch die Verkürzung dieses Entwicklungszyklus können Unternehmen Modelle viel schneller erstellen und verfeinern. Bei der Untersuchung von Latenzfähigkeiten speichert das Objekt aufgrund der Streaming-Eigenschaft des Objektzugriffs die Referenzzeit auf das erste Byte und nicht die Latenzzeit einer einzelnen I/O-Anfrage.
Ein weiterer Aspekt für die Leistung ist der Durchsatz und die Geschwindigkeit, mit der Daten auf eine Speicherplattform geschrieben oder von ihr gelesen werden können. Der Systemdurchsatz ist wichtig, da das KI-Training riesige Datensätze verarbeitet, wobei oft immer wieder dieselben Daten gelesen und erneut gelesen werden, um ein Modell genau zu entwickeln. Quellen für maschinelles Lernen und KI-Daten, wie zum Beispiel Sensoren an automatisierten Fahrzeugen, können täglich mehrere Terabyte an neuen Daten erzeugen. Alle diese Informationen müssen zu einem bestehenden Speicher hinzugefügt werden und haben nur minimale Auswirkungen auf die bestehende Verarbeitung.
Der letzte Aspekt für die Performance ist der parallele Zugriff. Machine Learning und KI-Algorithmen verarbeiten Daten parallel und führen mehrere Aufgaben aus, die dieselben Daten mehrfach und über viele parallele Aufgaben hinweg lesen können. Objektspeicher sind gut bei der parallelen Lese-I/O-Verarbeitung, da es keine Objekt-Lockings oder Attribute zu verwalten gibt. Dateiserver verfolgen offene I/O-Anforderungen oder Dateibewegungen im Memory-Speicher. Die Anzahl der aktiven I/O-Anforderungen ist also abhängig vom auf der Plattform verfügbaren Memory.
Daten des maschinellen Lernens können aus großen Mengen an kleinen Dateien bestehen. Dies ist ein Bereich, in dem Dateiserver eine bessere Leistung erbringen können als Objektspeicher. Eine Schlüsselfrage, die man KI-Speicheranbietern stellen sollte, ist, wie sich die Leistungsmerkmale ihrer Produkte im Vergleich zu großen und kleinen Dateitypen verändern werden.
4. Verfügbarkeit und Beständigkeit. Machine Learning und KI-Lernmodelle können über einen langen Zeitraum kontinuierlich laufen. Die Entwicklung von Algorithmen durch Training kann Tage oder Wochen dauern. Die Speichersysteme müssen während dieser Zeit betriebsbereit und ständig verfügbar sein. Das bedeutet, dass Upgrades, Technologiewechsel oder Erweiterungen von Systemen ohne Ausfallzeiten erfolgen müssen.
In großen Systemen ist der Ausfall von Komponenten normal und muss als solcher behandelt werden. Das bedeutet, dass jede Plattform, die für die KI-Arbeit verwendet wird, in der Lage sein sollte, von einem Medium - wie HDD oder SSD - und einem Knoten- oder Serverausfall Daten wiederherzustellen. Objektspeicher verwenden Erasure Coding, um Daten breit über viele Knoten zu verteilen und die Auswirkungen von Komponentenausfällen zu minimieren. Es gibt Erasure-Coding-Methoden zur Skalierung von Dateisystemen, um eine gleichwertige Ausfallsicherheit zu gewährleisten. Die Effizienz von Erasure Coding ist wichtig, da sie sich direkt auf die Leistung von Lese- und Schreib-I/Os bezieht, insbesondere bei kleinen Dateien.
Da die meisten großen Objektspeicher zu groß sind, um regelmäßig Backups zu erstellen, wird ein zuverlässiges Erasure Coding zu einem wesentlichen Bestandteil der KI-Speicherplattformen.
5. Öffentliche Cloud. Die Entwicklung von maschinellen Lern- und KI-Algorithmen erfordert sowohl leistungsstarken Speicher als auch leistungsstarke Rechenleistung (Compute). Viele KI-Systeme basieren auf GPUs, wie beispielsweise Nvidia DGX, die viele der komplexen mathematischen Berechnungen zur Entwicklung genauer Algorithmen übernehmen.
Public Cloud Service Provider haben damit begonnen, GPU-beschleunigte virtuelle Instanzen anzubieten, die für Machine Learning genutzt werden können. Der Einsatz von Machine-Learning-Tools in der Public Cloud reduziert die Investitionskosten für den Aufbau einer Infrastruktur für die Entwicklung von maschinellen Lernprozessen und bietet gleichzeitig die Möglichkeit, die für die Entwicklung von Modellen für maschinelles Lernen erforderliche Infrastruktur zu skalieren.
Die Herausforderung bei der Verwendung von Public Cloud Computing besteht darin, Daten kostengünstig und praktisch in Public Clouds zu bringen. Cloud-basierte Objektspeicher sind zu langsam, um mit den I/O-Anforderungen des maschinellen Lernens Schritt zu halten; daher muss lokaler Block Storage verwendet werden. Jede Minute Verzögerung beim Verschieben von Daten stellt eine Kostenbelastung für den Betrieb der Infrastruktur und eine Verzögerung bei der Durchführung von maschinellem Lernen dar.
Ein weiteres Problem bei Public Clouds sind die Kosten für den Daten-Download. Obwohl Cloud Service Provider keine Gebühren für die Übertragung von Daten auf ihre Plattformen erheben, berechnen sie für alle Daten, auf die aus dem öffentlichen Netz außerhalb ihrer Plattformen zugegriffen wird. Obwohl Public Clouds Flexibilität bei der Berechnung bieten, ist es nicht immer einfach, Daten rechtzeitig und kostengünstig in die und aus der Cloud zu bekommen.
Anbieter entwickeln Speicherangebote, die ihre Produkte in der Public Cloud betreiben, die sich über lokale Ressourcen und die Cloud erstrecken. Diese Produkte können Daten effizient replizieren oder Daten in die Cloud verschieben und die Ergebnisse erst nach Fertigstellung zurück transferieren. Diese Replikationstechniken sind bandbreiteneffizient, so dass es praktisch ist, Daten vor Ort zu speichern und für Analysezwecke in die Cloud zu importieren.
6. Integration. In diesem Artikel haben wir den Speicheraspekt des maschinellen Lernens und der KI isoliert vom Compute betrachtet. Der Aufbau von KI-Speichern kann schwierig sein, da zusätzliche Faktoren berücksichtigt werden müssen, damit Speichernetzwerke und Storage für die Arbeit mit maschinellen Lernanwendungen optimiert werden können.
Wie ich über konvergente Infrastrukturen schrieb, ermöglicht die Vorkonfigurierung von Produkten den Anbietern, ihre Angebote zu testen und zu optimieren, bevor sie sie an den Kunden versenden. Es gibt heute Speicherprodukte, die gängige KI-Software mit CPUs und GPUs als Compute-Ressource, Netzwerkekomponenten und Storage kombinieren, um eine KI-fähige Plattform bereitzustellen. Ein Großteil der detaillierten Abstimmungsarbeiten wird vor dem Einsatz dieser Systeme durchgeführt. Obwohl die Kosten ein Problem darstellen können, könnte ein vorkonfiguriertes System für viele Kunden die Hindernisse für die Einführung von KI-Speicherlösungen verringern.
Die Auswahl der richtigen KI-Speicherplattform ist eindeutig eine Balance zwischen Metriken wie Performance, Skalierbarkeit und Kosten. Die richtige Wahl der Speicherplattform ist unerlässlich, da die beteiligten Datenmengen erheblich sind. Die Auswahl des falschen Produkts kann ein kostspieliger Fehler sein. Wie bei jeder Entscheidung über ein Speicherprodukt ist es wichtig, mit den Anbietern zu sprechen, um genau zu verstehen, wie ihre Produkte den Anforderungen von KI und Machine Learning entsprechen.