Tipp

Diese acht Faktoren machen KI-Storage effizienter

KI-Workloads benötigen Speicher, der optimale Leistung, Kapazität und Verfügbarkeit bietet. Lesen Sie, was Sie bei der Storage-Planung für KI-Anwendungen beachten sollten.

von

Robert Sheldon

Zuletzt aktualisiert: 20 Dez. 2019

Heutige KI-Workloads benötigen Speichersysteme, die die Leistung, Kapazität und Verfügbarkeit bieten, die für einen zuverlässigen Betrieb während des gesamten Lebenszyklus der Anwendung erforderlich sind. KI-Technologien wie Machine Learning, Deep Learning und Predictive Analytics erfordern KI-Speichersysteme, die mit den riesigen Mengen an unterschiedlichen Daten, die sie erzeugen, sowie den schwankenden und prozessintensiven Workloads umgehen können.

Im Folgenden finden Sie einen Überblick über acht Faktoren, die bei der Planung des Speichers für Ihre KI-Workloads zu berücksichtigen sind.

1. Workload-Muster

Die Anforderungen an den KI-Speicher sind von Anwendung zu Anwendung sehr unterschiedlich. Die Applikationen erzeugen unterschiedliche Datenmengen und haben eine Vielzahl von Zugriffsanforderungen und I/O-Mustern. So kann es beispielsweise sein, dass eine Deep-Learning-Anwendung häufiger als eine maschinelle Basisanwendung auf Daten zugreifen und diese verarbeiten muss, während sie gleichzeitig kontinuierlich Daten in den bestehenden Pool einfügt. Sie müssen die Speicheranforderungen jedes Workloads jetzt und in Zukunft genau verstehen und nicht davon ausgehen, dass zwei Workloads gleich sind.

Aber das Verständnis dieser Anforderungen ist nicht unwichtig. Eine typische KI-Anwendung durchläuft mehrere Nutzungsstufen, und die Speicheranforderungen können von Stufe zu Stufe variieren.

So werden beispielsweise während der Aufnahmephase (Ingestion Phase) große Mengen heterogener Daten gesammelt und auf der Festplatte gespeichert, meist als sequentielle Schreiboperationen. Aber während der Transformationsphase, in der Daten bereinigt, organisiert und transformiert werden müssen, werden schwankende Datenmengen gelesen und geschrieben, die sowohl zufällige als auch sequentielle Operationen erfordern.

Diese Komponenten sind Teil Künstlicher Intelligenz.

2. Skalierbarkeit des KI-Speichers

Eine KI-Anwendung benötigt viele Daten. Je mehr Daten der KI-Anwendung zur Verfügung stehen, desto genauer sind die Ergebnisse. Die Daten können aus einer Vielzahl von Quellen stammen und in einer Vielzahl von Formaten kommen. Zwar benötigen einige KI-Anwendungen weniger Daten als andere, aber Sie müssen trotzdem die Anforderungen an Kapazität und Skalierbarkeit berücksichtigen. Achten Sie darauf, dass Sie die Daten kopieren, verschieben, aggregieren oder auf andere Weise verändern und verarbeiten müssen.

All dieser Speicher kann eine erhebliche Investition darstellen, sei es in Rechenzentrumssysteme oder Cloud-basierte Dienste. Es kann teuer sein, den benötigten Speicherplatz vor Ort zu verwalten, insbesondere mit leistungsstarken Flash-Arrays, aber die Auslagerung in die Cloud ist nicht immer die beste Alternative.

Eine Möglichkeit, die Kosten niedrig zu halten und dennoch die Skalierungsanforderungen zu erfüllen, besteht darin, sowohl Flash als auch Festplattenspeicher zu verwenden und sich nicht nur auf Flash zu verlassen. Eine weitere Möglichkeit ist die Implementierung einer Hybrid- oder Multi-Cloud-Strategie. Die Herausforderung bei diesem Ansatz besteht jedoch darin, dass Sie die Menge der Daten, die Sie kopieren oder plattformübergreifend migrieren, sorgfältig regulieren müssen, und dass Sie Entfernungen beachten müssen. Andernfalls könnten Datenduplikation oder Migrationskosten die Vorteile einer Cloud-Strategie untergraben.

3. Datenbeständigkeit

Bei einigen KI-Anwendungen ist nicht nur die Datenmenge von Bedeutung. Sie müssen sich auch ansehen, wie lange Sie diese Daten aufbewahren müssen. Einige Anwendungen erfordern eine kontinuierliche Analyse, die stetig neue Daten in die alten einfließen lässt, ein Prozess, der sich über Jahre erstrecken kann und zu enormen Informationsbeständen führt. Um sicherzustellen, dass die Daten für die Dauer des Vorgangs verfügbar sind, benötigen Sie umfassende Backup- und Disaster-Recovery-Strategien sowie eine Vielzahl von Speicherkapazitäten.

Bei der Bewertung der Workload-Muster und Skalierbarkeitsanforderungen Ihrer KI-Anwendung sollten Sie berücksichtigen, wie lange Sie die Daten aufbewahren müssen, wie auf die Daten in Zukunft zugegriffen wird, welche Daten archiviert werden können, wann sie archiviert werden können und natürlich die Datenmenge, die während des gesamten Lebenszyklus gespeichert werden muss.

4. Systemleistung

Eine KI-Lösung sammelt, verarbeitet, aggregiert, trainiert und analysiert Daten. Um diese Operationen mit massiven Datensätzen durchführen zu können, muss der KI-Speicher schnell und effizient und in der Lage sein, den erforderlichen Durchsatz und die erforderlichen I/O-Raten zu liefern und gleichzeitig Latenzzeiten und Konflikte zu reduzieren. Wenn das Speichersystem nicht für diese Anforderungen gebaut und optimiert ist, kann es Wochen dauern, bis eine einzige Iteration der Datentrainingsphase abgeschlossen ist.

Unternehmen, die Daten in ihren eigenen Rechenzentren oder auf einer einzigen Cloud-Plattform verarbeiten und speichern, haben einen Vorteil.

Die heutigen KI-Produkte laufen oft auf leistungsstarken, GPU-basierten Rechensystemen. Die Speicherplattform muss mit diesen Systemen Schritt halten, damit sich die Investition lohnt. Das bedeutet unter anderem, I/O-Engpässe und Performance-Probleme zu vermeiden. Eine massiv parallele Speicherarchitektur ist ein Weg, um diese KI-Speicherziele zu erreichen, insbesondere bei Trainingsdaten, die hohe Anforderungen an Rechen- und Speichersysteme stellen.

5. Datenstandort

Der Standort Ihrer Daten spielt eine Rolle bei der effizienten Verarbeitung großer Mengen. Je näher die Daten am Verarbeitungsort gespeichert sind, desto effizienter sind die Abläufe. Unternehmen, die Daten in ihren eigenen Rechenzentren oder auf einer einzigen Cloud-Plattform verarbeiten und speichern, haben einen Vorteil. Unternehmen, die hybride und Multi-Cloud-Strategien einsetzen, könnten es schwerer haben, einige der Vorteile von Cloud-Strategien zu untergraben. Um eine effektive KI-Lösung zu implementieren, müssen Sie Latenzen minimieren, und die Entfernung kann einer der größten Faktoren für die Latenz sein.

6. Storage-Typ

Eine weitere Überlegung bei der Implementierung von KI-Workloads ist, wie Daten gespeichert werden. Die Speicherung von Objektdaten ist der häufigste Ansatz. Es hat den Vorteil, dass es umfangreiche Metadatensätze unterstützt. Die Speicherung von Metadaten zusammen mit den eigentlichen Daten ermöglicht es, die Daten auf vielfältige Weise zu beschreiben, was wiederum eine schnellere und einfachere Suche ermöglicht, was bei der KI-Analytik eine wichtige Rolle spielt. Darüber hinaus ist die Objektspeicherung schnell, flexibel, platzsparend und hoch skalierbar, was sie zu einer idealen Ergänzung für KI-Workloads macht.

7. Kontinuierliche Optimierung

Jedes KI-Speichersystem muss kontinuierlich optimiert werden, um die Leistung zu maximieren und die Latenzzeit zu minimieren. Der heutige intelligente Speicher kann einen großen Beitrag zur Optimierung der Systeme leisten. Ein intelligentes Speichersystem, das selbst KI-Technologien einsetzt, kann Muster in den metrischen Daten, die von den Speichersystemen sowie von anderen Systemen in der Umgebung gesammelt werden, aufdecken. Ausgehend von diesen Mustern kann das intelligente System ohne menschliches Zutun automatisch Probleme lösen und die Speicherleistung optimieren.

Ein weiterer Trend, der von KI-Workloads profitieren kann, ist Software-Defined Storage (SDS), eine Systemarchitektur, die Speichersoftware von der Hardware entkoppelt. Durch die Abstraktion der physischen Speicherressourcen bietet SDS mehr Flexibilität, vereinfacht die Verwaltung und automatisiert den Betrieb bei gleichzeitiger Optimierung der Speicherleistung, was wiederum den KI-Workloads zugute kommt.

8. Plattformübergreifende Integration

Es gibt kein System oder keine Anwendung in einem Vakuum. Daten stammen fast immer aus mehreren Quellen - manchmal eine beträchtliche Anzahl von ihnen - und werden oft an zahlreichen Orten gespeichert. Hybride und Multi-Cloud-Strategien ergänzen den Mix ebenso wie Technologien wie Edge Computing, IoT und hyperkonvergente Infrastrukturen.

Unabhängig davon, wie sich Ihre Daten bewegen oder wo sie gespeichert sind, müssen Sie sicherstellen, dass alle Systeme nahtlos miteinander integriert sind, um den Bereitstellungs- und Wartungsaufwand sowie mögliche Engpässe zu minimieren. Verwenden Sie, wo immer möglich, standardbasierte Technologien, um diesen Prozess zu unterstützen.

Nächste Schritte

Diese Speicheransätze eignen sich für KI und ML

So verbessern Sie Speicher für unstrukturierte Daten mit KI-Analysen

Wofür sich Object Storage eignet