NicoElNino - Fotolia
4 Mythen über KI, ML und Datenspeicherung entzaubert
Die Storage-Infrastruktur kann beim Einsatz von KI/ML eine große Rolle spielen. Missverständnisse können allerdings hinderlich sein, die richtige Wahl für den Speicher zu treffen.
Netflix schauen, bei Google recherchieren, ein Uber-Taxi rufen, mit Amazons Alexa das Licht ausschalten, das Telefon entsperren und den optimalen Farbton einer Bluse auswählen - das sind nur einige Beispiele dafür, wie Menschen täglich mithilfe künstlicher Intelligenz und maschinellem Lernen (KI/ML) in Berührung kommen.
Im Kern geht es bei KI/ML um Mustererkennung. Die Fähigkeit, Muster in Echtzeit zu erkennen, bietet unzählige Möglichkeiten zur Verbesserung von Geschäftsprozessen, Unternehmensergebnissen sowie der individuellen menschlichen Erfahrung. IDC schätzt, dass der weltweite KI-Markt, einschließlich Software, Hardware und Dienstleistungen, im Jahr 2026 die 900-Milliarden-Dollar-Marke erreichen wird, mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 18,6 Prozent im Zeitraum von 2022 bis 2026.
Vier gängige KI/ML-Speichermythen, mit denen es aufzuräumen gilt
Da immer mehr Unternehmen KI/ML einsetzen, müssen sich IT-Teams auf die praktischen Aspekte konzentrieren – etwa, wie sie kosteneffizient eine Infrastruktur aufbauen und verwalten können, die diese leistungsstarken Fähigkeiten unterstützt und für künftiges Wachstum darüber hinaus skalierbar ist. Wenn es eine Komponente innerhalb dieses Prozesses gibt, die besonders unterschätzt und missverstanden wird, dann ist es die Datenspeicherinfrastruktur, die zur aktiven Unterstützung dieser neuen Anwendungen erforderlich ist.
Es halten sich aber oft hartnäckig einige Missverständnisse zum Thema künstliche Intelligenz und maschinelles Lernen, die das Verständnis und den richtigen Einsatz einer passenden Lösung verhindern können. An dieser Stelle sollen vier dieser Fehlkonzeptionen richtiggestellt werden.
1. Bei KI/ML geht es nur um die GPU
Vor dem Aufkommen moderner Grafikprozessoren (GPUs) mit extremer Rechenleistung waren die heute verwendeten KI/ML-Anwendungen und neuronalen Netze nichts weiter als ein faszinierendes Konzept. Das Beschleuniger-Silizium ist zweifellos von entscheidender Bedeutung für KI/ML-Anwendungen, aber ohne angemessene Speicher- und Netzwerkfunktionen ist es ebenso wertlos.
Datenspeicherung und Vernetzung sind dazu da, das KI-Monster zu füttern. Sie sorgen dafür, dass dem Beschleuniger der nächste Datensatz zur Verfügung steht, bevor er mit dem aktuellen Satz fertig ist. Die Wahl der Speicher- und Netzwerkinfrastruktur muss daher ebenso sorgfältig getroffen werden wie die der GPU. Tatsächlich muss jedes Element ausgewogen sein, um ein optimales Ergebnis zu erzielen.
2. KI/ML erfordert All-Flash-Speicher mit hohen IOPs
Um das Monster optimal zu bedienen, muss der Beschleuniger die Daten immer und überall verfügbar haben. Das bedeutet, dass es bei der KI/ML-Speicherung nicht nur um reine Geschwindigkeit geht. Teure All-Flash-Speichersysteme mit beeindruckend hohen IOPS könnten sehr wohl eine Verschwendung des Budgets darstellen.
Die Beschleuniger haben unterschiedliche Leistungsniveaus, ebenso wie die verschiedenen KI/ML-Anwendungen. Die Berechnungen pro Bild in Objekterkennungsanwendungen dauern beispielsweise so lange, dass ein Hybridsystem(Festplatte und Solid-State-Disk) genauso gut funktioniert wie eine reine NVMe-Lösung; und das zu einem viel niedrigeren Preis. IT-Teams müssen ihre Rechenbeschleuniger, KI/ML-Arbeitslasten sowie ihre Speicheroptionen abwägen, um die optimale Lösung zu finden. Unabhängige Benchmarks wie MLPerf können hier sehr hilfreich sein.
3. Storage Tiering wird die KI/ML-Kosten senken
Storage Tiering ist eine gängige Strategie zur Maximierung der Speicherressourcen sowie zur Minimierung der Kosten. Heiße, geschäftskritische Daten, auf die häufig zugegriffen wird, werden auf teuren und schnellen Speichermedien (zum Beispiel SSDs) abgelegt, während kalte Archivdaten, auf die nur sehr selten zugegriffen wird oder die nur selten aktualisiert werden, auf den kostenärmsten Optionen (etwa Tape) gespeichert werden. Obwohl dies ein weit verbreiteter Ansatz zur kosteneffizienten Verwaltung von Speicheranforderungen ist, lässt sich dieses Modell nicht auf KI/ML-Anwendungen anwenden. Das liegt ganz einfach daran, dass es bei KI/ML keine kalten Daten gibt.
„Die Wahl der Speicher- und Netzwerkinfrastruktur muss daher ebenso sorgfältig getroffen werden wie die der GPU. Tatsächlich muss jedes Element ausgewogen sein, um ein optimales Ergebnis zu erzielen.“
Curtis Anderson, Panasas
Alle KI/ML-Trainingsdaten werden bei jedem Trainingslauf verwendet, so dass eine Aufteilung der Trainingsdaten auf verschiedene Speicherebenen den Prozess nur verlangsamen würde. Stattdessen müssen KI/ML-Speicherlösungen alle Daten als heiß behandeln und sicherstellen, dass alle Daten immer auf einer Ebene verfügbar sind.
Gleichzeitig steigt die Genauigkeit von KI/ML-Workloads mit dem Volumen der verfügbaren Trainingsdaten. Das bedeutet, dass die Speicherinfrastruktur in der Lage sein muss, ohne Unterbrechung zu skalieren, wenn das Volumen der Trainingsdaten wächst. Lineares Scale-out-Wachstum ist im Gegensatz zu Storage Tiering eine wichtige Speicheranforderung für diese Umgebungen.
4. KI/ML kann ein dediziertes Einweg-Speichersystem effektiv nutzen
KI/ML sind am wertvollsten, wenn sie mit Blick auf die Kerndaten eines Unternehmens angewendet wird. So setzen beispielsweise Banken diese Technologien zur Betrugserkennung ein, und Arzneimittelhersteller können Daten aus Experimenten oder der Produktion besser analysieren, um die Entwicklung von Medikamenten zu beschleunigen. Bei den Lebensmittelgeschäften von Amazon etwa bilden KI/ML den Kern der Technologie- und Geschäftsinfrastrukturen. Für viele Unternehmen stellen KI/ML längst keine experimentellen Nebenprojekte mehr dar, die von einem speziellen Einweg-Speichersystem bedient werden könnten, sondern sie sind zu einem integralen Bestandteil des Unternehmens geworden. Daher müssen diese Anwendungen in die zentrale IT-Infrastruktur und Speicherlösung des Unternehmens integriert werden.
Wählen Sie mit Bedacht
KI/ML-Innovationen werden massive Veränderungen im gesamten Unternehmen bewirken und sich auf nahezu jeden Aspekt einer Organisation auswirken. Laut dem Hype Cycle von Gartner wird erwartet, dass sich viele Technologien in den nächsten zwei bis fünf Jahren durchsetzen werden, wie zum Beispiel Edge KI, Decision Intelligence und Deep Learning. Die Wahl der zugrundeliegenden Speicherinfrastruktur wird einen großen Einfluss auf die Fähigkeit von Unternehmen haben, das Potenzial von KI/ML-Anwendungen zu maximieren, wenn sie sich auf den Weg machen, diese leistungsstarke neue Technik anzuwenden.
Über den Autor: Curtis Anderson ist ein Datenspeicher-Experte mit mehr als 34 Jahren Erfahrung und derzeit Software Architect bei Panasas. Seinen Schwerpunkt legt Anderson auf die Implementierung von Dateisystemen. Anderson war einer der fünf ursprünglichen Autoren des XFS-Dateisystems, das heute in Linux weit verbreitet ist, und arbeitete an dem Veritas VxFS-Dateisystem, bevor Veritas aus der Taufe gehoben wurde. Er war ferner 14 Jahre lang Mitglied der IEEE, unter anderem als Sponsor Chair für die IEEE 1244 Working Group, die einen formalen Standard für die gemeinsame Nutzung von Bandlaufwerken und Bandrobotern in einem SAN durch mehrere Hosts abstimmte und veröffentlichte. In seiner Funktion als Softwarearchitekt bei Panasas ist Anderson für die Koordinierung von Technologie-Teams verantwortlich, die an verschiedenen Elementen arbeiten, aus denen sich das parallele Speicherdateisystem von Panasas zusammensetzt.
Vor seiner Tätigkeit bei Panasas war Anderson als Technical Director bei NetApp sowie als Architekt bei EMC/Data Domain tätig. Anderson hält 10 Patente, unter anderem in den Bereichen kontinuierliche Datensicherung und Replikation von de-deduplizierten Dateidaten über ein Netzwerk.