pressmaster - stock.adobe.com

Report

Hybride Storage-Arrays erlauben Kostensenkung durch Tiering

Storage-Tiering ermöglicht es, beim Design hybrider Speicherumgebungen eine gesunde Balance zwischen Leistungsanforderungen und Kostenerwägungen umzusetzen.

Die meisten Unternehmen arbeiten mit mehreren Datentypen, wobei jedes Unternehmen seine eigenen Prioritäten setzt. Sie hängen von der Menge der Daten und der von den Applikationen benötigten Zugriffsgeschwindigkeit ab.

Aus diesem Grund betreiben die meisten großen Rechenzentren nicht einfach einen homogenen Storage-Typ. Vielmehr sind hybride Arrays, die Flash und Hard Disk Drives (HDD) mischen, in Rechenzentren weit verbreitet. Denn nur wenige Unternehmen können es sich leisten, jedes Bit oder Byte auf die schnellste verfügbare Flash-Storage zu legen,

Hybride Storage-Arrays bedienen unterschiedliche Prioritäten und senken die Kosten, indem sie diverse Storage-Arten miteinander verbinden. Zunehmend gehört dazu nicht nur die Kombination von Flash und Festplatten (HDDs), sondern es sind jeweils diverse Schichten von Flash, HDDs, Tape, Objekt- und Cloud-basiertem Speicher vorhanden.

Sie werden zu einer einheitlichen, transparenten virtuellen Speicherinfrastruktur verbunden. So erreicht die effektive Leistung des gesamten Storage-Systems ein Niveau, das den jeweils benötigten Daten- und Anwendungstypen angemessen ist.

Die im Folgenden beschriebenen Einsatzzwecke ermöglichen es, besser zu verstehen, welche Vorteile hybride Storage-Arrays bieten und welche Datentypen am besten zu welcher Storage passen. Das hilft, bei der Entwicklung einer rationalen Einkaufs- oder Managementstrategie für die Unternehmens-Storage zu argumentieren.

Welche Array-Typen profitieren von hybriden Storage-Arrays?

Transaktionsbasierende Echtzeit-Daten. Live-Daten sind in der Regel aktiv und persistent; Datenbanken oder andere Applikationen, die Live-Daten verwenden, greifen regelmäßig auf ihre Daten zu, während die Anwender Suchläufe durchführen, ihre Verkaufs- oder andere Aktivitäten verfolgen.

Automatisierte Tiering-Software hält im Allgemeinen alle aktiven Daten auf der schnellstmöglichen Speicherschicht. Allerdings kann es sein, dass Administratoren einige Datenbanken, Partitionen oder Volumes zusammen auf einem bestimmten Tier halten. Das soll sicherzustellen, dass es nicht zu Verzögerungen kommt, weil ein Teil dieser Daten wegen Inaktivität über einen bestimmten Zeitraum auf eine langsamere Speicherschicht wegmigriert wurde.

Mit dem Auftauchen von Big Data, Data Lakes und anderen großen Datensammlungen lohnt es sich zu prüfen, ob es günstiger ist, Daten in der Cloud zu halten. Dort ermöglichen es Tiering-Optionen, Daten bei Bedarf zwischen heißer, warmer und kalter Cloud-Storage zu verschieben.

Typische File-Server-Daten. Manche Datentypen werden in der Regel auf einem File-Server gehalten, brauchen aber nur selten die Geschwindigkeit von Flash. Dazu gehören Text, Textverarbeitung, Tabellen und Präsentationen. Wurde ein Dokument oder ein File einmal geladen, lässt sich der Nutzer-Input meist in Zeichen pro Sekunde messen. Dafür braucht man keine Antwortzeiten im Sub-Mikrosekundenbereich.

Sogar Grafiken mit besonderen Effekten oder Raytracing oder das Kompilieren großer Programme werden eher von der CPU oder den Fähigkeiten zur Grafikverarbeitung gebremst als durch die Geschwindigkeit des Datenzugriffs. Es gibt Ausnahmen, aber sie sollten so selten vorkommen, dass sie vom Administrator individuell behandelt werden können.

Streaming-Daten. Da Streaming-Daten per definitionem vorhersagbar und sequentiell sind, brauchen sie die kurzen Verzögerungszeiten und den Zufallszugriff von Flash nicht. Sogar Streaming-Daten, auf die viele Anwender zugreifen, lassen sich relative einfach auf größtmögliche Leistung optimieren, ohne viel Flash zu verwenden. Zusätzlich verbrauchen Streaming-Daten wegen der großen Files und der Datenmengen, die übertragen werden, viel Speicherraum und sind damit ideal für tiefere (günstigere und langsamere) Storage-Schichten.

Virtuelle Systeme. Im Gegensatz zu Streaming-Daten sind virtuelle Server und virtuelle Desktop-Infrastrukturen (VDI) ideale Kandidaten für Flash-Storage. Sie profitieren von der geringen Verzögerung von Flash und Deduplizierung, da viele virtuelle Maschinen (VMs) einen großen Anteil ihrer Inhalte mit anderen VMs teilen.

In einem VDI-System mit 100 Windows-VMs beispielsweise können durchaus 99 Prozent der Daten bei allen VMs gleich sein. Das führt zu einer Deduplizierungsrate von fast 100:1, so dass 100 VMs kaum mehr Platz einnehmen als seine. Flash_Storage ist schnell genug, um Deduplizierung zu unterstützen und die Spitzenlasten, die für VDI-Umgebungen typisch sind, zu handhaben, wenn beispielsweise alle Anwender sich um acht Uhr morgens einloggen, sich zur Mittagspause ausloggen, danach wieder einloggen und um 17 Uhr für den jeweiligen Arbeitstag das System verlassen.

 Daten zwischen Storage-Schichten verschieben

Automatisierte Tiering-Software ist transparent für die Anwender und oft auch für den Administrator. Zwei Dateien, die im selben Verzeichnis zu stehen scheinen, können sich in Wirklichkeit auf unterschiedlichen Storage-Schichten befinden oder sogar auf unterschiedlichen Systemen im Rechenzentrum.

Die Storage-Virtualisierungs-Software identifiziert selten verwendete Files und verschiebt sie auf langsamere, kostengünstigere Speicherschichten. An ihre Stelle tritt ein Platzhalter, der dem System mitteilt, wo sich die Datei befindet. Wenn ein Anwender diese Datei öffnet, holt sie das System automatisch von der langsameren Storage und verschiebt sie auf eine schnellere Schicht.

Einige der ersten automatischen Tiering-Systeme waren ausschließlich aktivitätsbasiert. Eine Datei wurde dann auf eine niedrigere Schicht der Storage-Hierarchie verschoben, wenn sie in einer vorher festgesetzten Zeitspanne nicht geöffnet oder verändert worden war. Einige Systeme arbeiten noch immer so.

Andere verwenden Vorhersage-Algorithmen, um zusammenhängende Daten gemeinsam zu migrieren, so dass, wenn sein Anwender eine Datei aus einem Verzeichnis öffnet, der Rest der Daten im selben Verzeichnis ebenfalls nach oben in der Speicher-Hierarchie verschoben wird, falls der Anwender sie benötigen sollte.

Andere Systeme bewegen die Daten blockweise statt fileweise. So kann bei einem großen File, bei dem nur zu wenigen Daten immer wieder kleine Datenmengen hinzugefügt werden, der größte Teil der Daten auf der langsameren Storage bleiben. Nur die häufig veränderten Blöcke werden auf den schnelleren Schichten gehalten.

Viele Faktoren können bestimmen, in welchem Storage-Tier Daten gehalten werden sollten. Dazu gehören Dienstgütevereinbarungen (Service Level Agreements, SLA), Daten, die nur am Ende einer bestimmten Zeitspanne, z.B. am Quartalsende, gebraucht werden, kritische Daten mit maximalem Redundanzbedarf und Daten mit extrem hohen Durchsatzanforderungen.

Diese Daten können bestimmten Schichten zugewiesen werden, mit denen die automatisierte Tiering-Software unter Umständen nicht eigenständig umgehen kann.

Die Flexibilität der Storage-Management-Software, ob sie nun in das Flash-Array integriert oder separat gekauft wird, legt fest, wie gut der Administrator derart ungewöhnlichen Anforderungen entsprechen kann. Bei einigen Hybrid-Storage-Arrays lassen sich Antwortzeiten, Durchsatz und Verzögerung bestimmter Dateien oder Verzeichniszweige einfach messen und so sicherstellen, dass sie den gewünschten Mindestanforderungen entsprechen, die andere Systeme nicht erfüllen.

Genauso können einige Systeme Daten in spezifischen Intervallen migrieren. Dann stehen sie beispielsweise bereits im Vorfeld einer regelmäßig vierteljährlich anfallenden Aufgabe auf einer leistungsfähigeren Storage-Schicht zur Verfügung oder bleiben permanent auf einer bestimmten Schicht.

Hybride Storage-Arrays sind so schnell und verzögerungsarm wie Flash und so wirtschaftlich wie HDDs, Tape oder die Cloud. Notwendigerweise sind sie komplexer als Systeme, die vollständig aus Flash oder Harddisks bestehen. Ihre Flexibilität und ihre geringeren Kosten legen es aber nahe, auch sie in Erwägung zu ziehen. Die meisten Anbieter haben hybride Storage im Programm: angefangen von NAS-Boxen, die weniger als 1000 Euro kosten, bis hin zu Systemen für Unternehmen, für die man Millionen aufwenden muss. Administratoren sollten wissen, wie diese Systeme arbeiten und ihr Potential kennen, in Organisationen substantielle Geldbeträge einzusparen,

So arbeitet Tiering-Software

Tiering-Software bildet das Herz hybrider Systeme, egal, ob sie einfach automatisch die Daten, auf die am häufigsten zugegriffen wird, auf die schnellste Speicherschicht legt oder komplexere Mechanismen anwendet, die assoziierte Daten im Voraus bereitstellen und sie bei Bedarf über mehrere Schichten hinweg bewegt. Daten lassen sich manuell auf verschiedene Typen von Storage-Silos verschieben, aber das verbraucht viel Administrationszeit und kostet langfristig wahrscheinlich mehr als die Anschaffung einer Storage-Tiering-Software.

Eine Alternative zum Tiering-fähigen Komplettsystem ist es, Tiering-Software getrennt vom Storage zu erwerben und ein eigenes hybrids System zu bauen. Aber es kostet wertvolle Zeit, die neue Tiering-Software zu erlernen und die kombinierte Hard- und Software bereitzustellen und dieser Aufwand frisst viel von den Ersparnissen auf, die durch den Verzicht auf ein Komplettprodukt entstanden sind.

Gibt es bereits mehrere Storage-Silos, die für einige der Tiers verwendet werden können, kann das die effizientere Option sein.

Zusätzlich zum zweistufigen Standard-Tiering-Prozess mit einem Flash-Layer und einer HDD-Schicht können weitere oder andere Schichten in Frage kommen. Beispielsweise vereinigt der Oberbegriff Flash viele unterschiedliche Flash-Typen: Memory-Bus-Flash, nichtflüchtiger Memory-Express-Flash, schreiboptimierter Flash und leseoptimierter Flash.

Der Preis dieser Speichertypen sinkt vom erst- zum letztgenannten zusammen mit der Leistung. Auch bei Harddisks gibt es mehrere Typen – neben Drives, die sich durch ihre Umdrehungsgeschwindigkeiten von 15.000, 10.000 oder 7.200 RPM (Umdrehungen/Minute) unterscheiden, gibt es HDDs, die sich bei Nichtgebrauch abschalten lassen und Object Storage auf Festplatten.

Nicht zu vergessen Tape und Cloud-Storage mit ihren geringeren Kosten pro Gigabyte und längeren Antwortzeiten  weiter unten in der Speicherhierarchie.

Trotz unterschiedlicher Statistik ist die 80/20-Regel beim Tiering-Design nützlich: 80Prozent der Daten, die auf ein System geschrieben werden, sind etwa 30 Tage aktiv und werden dann weniger häufig genutzt. Die 20 Prozent der Daten, die kontinuierlich aktiv sind, sollten auf dem schnellstmöglichen Storage-Tier gehalten werden, den Rest kann man nach 30 Tagen auf weniger teure Storage-Schichten migrieren. Diese Daten werden nur noch auf schnellere Schichten zurückgeholt, wenn das nötig ist.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

So können Sie die hybride Cloud als Storage Tier einsetzen

So optimieren Sie die Storage-Leistung mit SSD-Caching und SSD-Tiering

Mit geschicktem Tuning können Sie optimale Leistung aus Storage herauskitzeln

Erfahren Sie mehr über Storage Management