cherezoff - stock.adobe.com
Warum Storage Tiering nach wie vor wichtig ist
Tiered Storage feiert ein Comeback, indem es maschinelles KI-Lernen integriert, um die Kosten- und Leistungsvorteile der neuen SSD- und Storage-Class-Memory-Technologien zu nutzen.
Storage Tiering gibt es schon seit mehr als einem Jahrzehnt. Es erreichte vor einigen Jahren seinen Höhepunkt, als SSDs erstmals eingeführt wurden, um die Leistungsvorteile von Flash mit den niedrigeren Kosten von Festplatten zu kombinieren. Da die Kosten für Flash-Speicher jedoch gesunken und die SSD-Kapazitäten gewachsen sind, haben mehr Unternehmen auf All-Flash-Speicher umgestellt, und mehrstufige Systeme wurden weniger beliebt.
Heute gibt es verschiedene Arten von SSDs mit unterschiedlichen Leistungs- und Kostenniveaus; eine Reihe von SSD-Flash-Schnittstellen von NVMe mit hoher Bandbreite und niedriger Latenz bis hin zu SATA mit niedriger Bandbreite und hoher Latenz; und eine kommende Generation Storage Class Memory (SCM). Tiering taucht hier wieder auf, da Unternehmen die Kosten- und Leistungsvorteile dieser neuen Technologie nutzen wollen.
Die Entwicklung von Tiering
Storage Tiering ist eine richtlinienbasierte Engine, die den Datenwert an die richtige Preis-Leistungs-Speicherschicht weitergibt. Wenn die Daten altern und die Zugriffsfrequenz abnimmt, verlieren sie an Wert und werden von einer leistungsstärkeren und teuren Schicht, wie zum Beispiel SSDs, in eine leistungs- und kostengünstigere Ebene, wie zum Beispiel Festplatten, verschoben.
Studien haben gezeigt, dass der meiste Zugang zu Daten in der Regel in den ersten 72 Stunden nach der Erstellung erfolgt und danach stetig abnimmt. Die Zugriffsmenge sinkt in der Regel nach 30 Tagen sprunghaft. Es gibt Ausnahmen, aber das ist in der Regel die Norm. Die Zeit seit dem letzten Zugriff, die Zeit seit der letzten Änderung und die Zeit seit der Erstellung sind gemeinsame altersbezogene Tiering-Richtlinien für den Speicher.
Storage-Tiering-Software hat traditionell Daten auf der Grundlage von Richtlinienschwellen platziert oder verschoben. Hochperformante und teure Speicher-Tiers wurden für die Daten mit dem höchsten Wert reserviert. Die Daten wurden beim „Abkühlen“ (Alter, weniger Zugriff) von der primären Leistungsstufe auf eine niedrigere verschoben. Und da es mehrere Ebenen geben kann, die aus SSDs, schnellen HDDs und kapazitiven HDDs bestehen, können Daten mehrfach verschoben werden.
Da die Kosten für Flash gesunken sind, ist der Kostenunterschied zwischen Flash-SSDs und schnellen Festplatten fast verschwunden. Darüber hinaus sind die SSD-Kapazitäten schnell gewachsen, die Speichersysteme sind zu All-Flash-Systemen geworden und so sind mehrstufige Speichersysteme aus der Mode gekommen.
Aber die Situation hat sich für das Tiering mit der Verbreitung verschiedener Arten von Flash-SSDs geändert, darunter MLC, 3D-MLC, 3D-TLC und 3D-QLC. Mit zunehmender Anzahl der Bits pro Zelle sinken Leistung und Verschleißfestigkeit. Diese Unterschiede haben die Hersteller veranlasst, eine Vielzahl von verschiedenen Flash-SSDs anzubieten. Jedes hat eine einzigartige Balance aus Latenz, IOPS, Durchsatz, Kapazität, Langlebigkeit und Kosten. Sie unterscheiden sich stark voneinander.
Nehmen wir zum Beispiel die neuesten leistungsstarken und kostengünstigen 3D-QLC-SSDs. Da 3D-QLC-SSDs über ein Zehntel der Haltbarkeit von 3D-TLC-SSDs und ein Hundertstel der Lebensdauer von 3D-MLC-SSDs verfügen, sind sie nicht gut für schreibintensive Anwendungen geeignet. Sie sind viel besser für leseintensive Anwendungen, die keinen Einfluss auf die Verschleißfestigkeit haben. Wieder einmal stehen Speicheradministratoren vor dem enormen Problem, verschiedene Preis-Leistungs-Tiers zu verwalten.
Darüber hinaus stehen verschiedene Flash-SSD-Schnittstellen zur Auswahl, die von NVMe mit hoher Bandbreite und niedriger Latenz über SATA mit niedrigerer Bandbreite und höherer Latenz und bis hin zu SAS mit noch niedrigerer Bandbreite, höherer Latenz und niedrigsten Kosten reichen. Da diese Schnittstellen die Leistung und die Kosten beeinflussen, bedeutet All-Flash nicht mehr, dass eine einzige Speicherleistungsstufe erforderlich ist.
Storage Class Memory Tier
Die nächste Generation von SSDs, die auf Storage Class Memroy (SCM) basieren – einschließlich Optane 3D XPoint, resistivem RAM, STD-RAM, Nano-RAM und Magnetoresistivem RAM –, erweitert die Speicherleistung um einen weiteren Performance-Tier. SCM-SSDs haben niedrigere Latenzen, höhere IOPS, einen höheren Durchsatz und eine längere Lebensdauer als Flash. Die meisten nutzen zudem das NVMe-Interface. Allerdings kostet SCM deutlich mehr als bestehende Speichertechnologien.
Heute erfordert die optimale Nutzung der verschiedenen Flash und SCM-SSDs, ohne das Speicherbudget zu überfordern, den Einsatz von Tiering. Die effektivsten Ansätze basieren auf den neuesten Fortschritten im maschinellen Lernen und künstlicher Intelligenz, die sich an veränderte Bedingungen anpassen und die verschiedenen Leistungsstufen optimal nutzen können. Storage-Tiering kann ein integraler Bestandteil eines externen Speichersystems, eines Software-definierten Storage (SDS) oder einer separaten Speicheranwendung sein.
So lässt sich Cloud-Storage integrieren
Es gibt noch ein weiteres Problem mit dem mehrstufigen Speicher: Public und Private Cloud Storage sind immer wichtiger geworden, aber ein effizientes, kostengünstiges Tiering zum Cloud Storage ist nicht einfach. Das Problem ist, wie man Daten kostengünstig von einem hochpreisigen Rechenzentrumsspeicher auf einen kostengünstigeren privaten oder Public-Cloud-Speicher verschieben kann.
Das Tiering zwischen verschiedenen Speichertypen, Anbietern, Technologien und Clouds – bekannt als Inter-System-Storage-Tiering – hat seine eigenen Herausforderungen. Der beliebteste Ansatz war die Verwendung von HSM-Technologien (Hierarchical Storage Management), die immer noch von Cloud-Storage-Gateways, Speichersystemen und SDS verwendet werden. Die Technologie wurde für LAN-Umgebungen entwickelt, nicht für die Cloud und insbesondere nicht für Public-Cloud-Speicher.
HSM ist Stub-basiert. Daten, die von einem System in ein anderes verschoben werden, werden aus dem Originalsystem gelöscht und durch einen kleinen Stub (ähnlich eines Fußabdrucks) ersetzt. Wenn auf Daten zugegriffen wird, erfolgt dieser Zugriff tatsächlich auf den Stub, der die Daten von seinem aktuellen Speicherort abruft und sie wieder in ihren ursprünglichen Speicher zurückführt. Bei Verwendung mit der Cloud ist HSM langsam und kostspielig. Jedes Mal, wenn die Daten auf den ursprünglichen schnellen Primärspeicher zurückgeholt werden, werden Cloud-Egress-Gebühren (für die Zurückführung) berechnet, die sich schnell summieren können. Während Cloud-Speicher selbst ziemlich preiswert sein kann, können die mit der Nutzung von HSM verbundenen Ausgangsgebühren teuer werden.
Dann ist da noch das Problem der Stub-Instabilität. Wenn Daten ein zweites Mal in ein anderes Speicher-Repository verschoben werden, bricht der HSM-Stub ab, weil er die Daten nicht finden kann, was zu weiteren Problemen führt.
Ein neuer Ansatz für Storage Tiering
Bei der Kombination von Tiering mit Public oder Private Cloud Storage liegt der Schwerpunkt auf unstrukturierten Daten. IDC schätzt, dass unstrukturierte Daten etwa 80 Prozent der Daten eines Unternehmens ausmachen, mit einer jährlichen Wachstumsrate von etwa dem Dreifachen der strukturierter Daten. Die meisten neuen Such- und Analyse-Tools sind auch auf unstrukturierte Daten ausgerichtet.
Dieser moderne Tiered-Storage-Ansatz wird als Datenmanagement oder autonomes Datenmanagement bezeichnet, wenn er mit der KI-Technologie und maschinellem Lernen kombiniert wird. Datenverwaltungs-Tiering-Software – wie ClarityNow, Hammerspace, Komprise und StrongBox Data Solution's StrongLink von Dell EMC – mountet leistungsstarke SSD-File- oder objektbasierte Primärspeichersysteme mit Administratorrechten.
Dadurch kann die Tiering-Software Daten lesen und auf Basis von Storage-Tiering-Richtlinien beim Einfügen eines globalen Namensraums (Global Name Space) in einen öffentlichen oder privaten Cloud-Speicher kopieren.
Der globale Namensraum macht den Wechsel für Benutzer und Anwendungen transparent. Die Daten werden dort gelesen und abgerufen, wo sie sich befinden; eine Rehydrierung (vollständige Zurückführung) ist nicht erforderlich, und sie können aus dem ursprünglichen Speicher gelöscht werden.
Andere Datenmanagementprodukte, wie InfiniteIO, sitzen vor schnellem SSD-Speicher und dem Public- oder Private-Cloud-Speicher und sehen aus wie ein Switch. Dieser Ansatz funktioniert sowohl mit strukturierten als auch mit unstrukturierten Daten.
Es ist klar, dass in Zeiten moderner und preiswerter Speicheroptionen intelligentes, autonomes Storage Tiering kein Luxus mehr ist. Es ist eine Notwendigkeit.