Gorodenkoff - stock.adobe.com
Storage-Techniken für das Management unstrukturierter Daten
Unstrukturierte Daten nehmen ständig zu. Die IT muss deshalb neue adäquate Methoden entwickeln, um diese Daten angemessen zu speichern und zu verwalten.
Vor einigen Jahren hatten IT-Abteilungen es meistens mit zwei Storage-Tiers zu tun. Unternehmen setzten Primary Storage – online und mit hoher Performance – direkt für Applikationsdaten ein und „kalten“ Secondary Storage, um jenseits vom primären Speicher weniger wertvolle Daten unterzubringen. Es war nicht gerade so, dass die meisten Daten ihren Wert zu einem bestimmten Verfallsdatum verloren, aber primärer Speicher hatte seinen Preis, der der Kapazität Grenzen setzte, und deshalb musste beständig Platz für neuere, unmittelbar benutzte Daten geschaffen werden.
Darüber hinaus war es sehr zeitintensiv, verfallende Daten aufzuspüren und zusammenzufassen, um eine Art von historischem Überblick zu bekommen. Das bedeutete aber auch, dass viele Daten spurlos in irgendwelchen Speichern verschwanden. Das hat sich angesichts der Notwendigkeit, immer mehr unstrukturierte Daten zu verwalten, deutlich geändert. Neue Services stellen Storage für Big Data Analytics von detaillierten unstrukturierten Daten und von Maschinendaten zur Verfügung, und außerdem werden schnelle DevOps-Fähigkeiten unterstützt, Storage-Self-Service angeboten und nicht zuletzt sollen die IT-Ausgaben unter Kontrolle gehalten werden. Grundsätzlich geht es darum, die Speicherspezialisten dabei zu unterstützen, für immer größere Datenmengen ausreichenden und schnellen Online-Zugang zur Verfügung zu stellen.
Produkte für das Management unstrukturierter Daten umfassen in der Regel Copy Data Management (CDM), Global File Systems, hybride Cloud-Architekturen, Global Protection und Big Data Analytics. Diese Ansätze helfen dabei, viele – wenn nicht alle – Daten verfügbar und produktiv zu halten.
Mit der Datenexplosion zurechtkommen
Es gibt vermehrt unstrukturierte Daten in einer großen Bandbreite und mit hohem Volumen. Diese Datenmengen sind alles andere als gut strukturierte Datenbanksätze. Die neue Datenexplosion umfasst wachsende Dateien und File-Systeme, maschinengenerierte Datenströme, Applikationen, die sich schnell im Web verbreiten, endlose Dateiversionen, immer granularere Backups und Rollback-Snapshots, um den Ansprüchen an Datenintegrität und Business Continuity zu genügen, und riesige Bilder- und Medien-Ansammlungen.
Die Public Cloud ist eine Möglichkeit, mit dieser Datenexplosion zurechtzukommen, ist aber wegen ihrer Besonderheiten nicht immer die beste Antwort. Elastic Cloud Storage Services (wie zum Beispiel die von Amazon AWS) sind leicht anzuwenden, um große Speicherkapazitäten unterzubringen. Doch außer man will unbedingt eine wachsende und dabei immer teurerer werdende Müllhalde an Cloud-Daten schaffen, empfiehlt sich ein ausgefeiltes Storage-Management auch für unstrukturierte Daten. Bei den neuen Storage-Angeboten geht es vor allem darum, das IT-Management und die Governance über mehrere Tiers von globalem Storage hinweg auf ein Enterprise-Niveau zu heben – einschließlich von hybriden und Public-Cloud-Konfigurationen.
Wie man unstrukturierte Daten nützlicher macht
- Einen globalen Namespace erstellen und anwenden, um eine effektive Governance zu erreichen sowie den Zugang zu erweitern und zu erleichtern.
- Ein Online-Backup-Repository und -Archiv einrichten, um folgendes zu machen:
- APIs für Object Storage der nächsten Generation liefern;
- File Versioning für End-User zur Verfügung stellen;
- Backup-TCOs reduzieren; und
- hohen Durchsatz und „kältere“ Data Reads für Big Data Analytics unterstützen.
- Globalen Data Content und Fähigkeiten für Metadata Search unterstützen.
- Tools für Analytics einrichten, die den Anbietern von Geschäftsanwendungen wirkungsvolle Optionen zur Kostenreduzierung zur Verfügung stellen.
Wenn man eine neue Architektur aufbaut, um besonders unstrukturierte Daten auf Unternehmensebene zu speichern, sollte man sieben relativ weit entwickelte Speichertechnologien berücksichtigen:
1. Automatisches Storage Tiering. Storage Tiering ist kein neues Konzept, aber heute funktioniert es über unterschiedliche Storage-Arrays und Hersteller hinweg, wobei oft vorhandener Speicher virtualisiert wird. Produkte für Advanced Storage Tiering beruhen auf bisherigen einfacheren Cloud-Gateways. Sie erkennen besondere Performance-Anforderungen von Anwendungen und Workloads und implementieren Policies für Quality of Service, Security und Kostenkontrolle des Unternehmens.
Viel von dem, was ursprünglich individuelle Produkte wie zum Beispiel Speichervirtualisierung, globale verteilte File-Systeme, Verteilung und Migration von Daten und Cloud-Gateways waren, wächst heute in einer einzigen Konsole zusammen, die verschiedene Speicher-Services vereint. Diese Art und Weise von Storage Tiering ermöglicht Infrastrukturen für Unified Storage und stellt grundsätzliche Services für verschiedene Produkte von Speichermanagement zur Verfügung.
2. Wachstum von Metadaten. Es werden mehr Speichermetadaten gesammelt und benutzt, wenn unstrukturierte Daten verwaltet werden. Und wenn Metadaten in größerem Maßstab zusammengeführt und ausgewertet werden, können Speicherhersteller ihre Storage-Systeme besser virtualisieren, ihre Services optimieren, Governance-Richtlinien verstärken und ihre Enduser-Analytics ausbauen.
Metadaten-Konzepte finden sich eher in einer Object- oder File-Storage-Umgebung. Doch auch fortgeschrittene Block- und virtuelle Machine-Learning-Speicherdienste verwenden zunehmend Details von Metadaten, um Tierung für Performance zu unterstützen. Man trifft auch auf Metadaten bei Funktionen für Data Protection. Infinite Snapshots und Immediate Recovery von Reduxio basierend auf Timestamping haben Block Storage die Vorteile von Metadaten gegeben – genauso wie dies auf Data-Capture-Techniken und N-Way-Replikation zutrifft. Wenn man Speichersysteme betrachtet, die wesentlich auf Metadaten beruhen, muss man auch Schutzmechanismen und potentielle Engpässe überprüfen. Interessanterweise können auf Metadaten gestützte Ansätze die Storage-Performance verbessern, weil sie solche Daten unabhängig von ihrem praktischem Einsatz für Performance und Skalierbarkeit heranziehen.
3. Storage Analytics. Man kann Metadaten und andere Analytics-Ergebnisse über den Storage-Einsatz, die über das ganze Unternehmen hinweg eingesammelt wurden, in der Praxis offline und zunehmend für dynamische Verbesserungsprozesse verwenden. Sogenanntes Call-Home-Management ist ein Beispiel dafür, wie Analytics für ein besseres Storage-Management eingesetzt werden. Komprise und andere Hersteller nutzen Analytics, um Reports über den Storage-Einsatz zu erstellen: zum einen auf der Anwendungsebene, zum anderen für die Planung künftiger Storage-Implementationen, um rechtzeitig mögliche Auswirkungen auf die Infrastruktur und die Kosten erfassen zu können.
Service-Angebote für Cloud-Storage finden in einem stark umkämpften Markt statt. Es ist davon auszugehen, dass die Konkurrenz noch zunehmen wird, was den IT-Abteilungen ermöglicht, die Anbieter auf der Basis von Analytics gegeneinander auszuspielen. Obwohl wir noch nicht soweit sind, da die Daten noch nicht so einfach für so etwas einzusetzen sind, werden schon bald die neuen Speicherprodukte entsprechende Daten in Echtzeit integrieren, ohne dass die Anwendungen neu gestartet werden müssen.
4. Kapazitätsplanung. Datendeduplizierung, Komprimierung und Thin Provisioning helfen natürlich dabei, die Kapazität auf dem Array-Level zu optimieren. Aber die Anzahl der Datenkopien zu begrenzen, die im Unternehmen zirkulieren, wird auch Management-Probleme und die Kosten bei großen Mengen an unstrukturierten Daten verringern.
Unternehmen wie Actifio und Delphix waren mit CDM (Continuous Data Management) sehr erfolgreich, mit dem man eine virtuelle Copy oder einen Klon der Daten erhält, während sie zugleich vor Veränderungen geschützt sind. Anstatt zum Beispiel 15 Kopien von wichtigen Daten zu haben, die an verschiedenen Orten quer über ein Unternehmen gespeichert sind, dedupliziert CDM-Speicher in eine einzige Master Copy und ermöglicht bei Bedarf sofortigen Zugang zu den diversen virtuellen Kopien.
5. Smart Data Protection. Anbieter von Smart Data Protection wie Commvault, Rubrik, Strongbox Data Solutions und Veritas liefern skalierbaren Backup-Storage mit optimaler Kapazität. Die Produkte dieser Hersteller verwenden oft detaillierte (tiefere) Metadaten und gute CDM-ähnliche Techniken, die schnelles Data Cloning und Global Recovery zur Verfügung stellen.
In diesem Zusammenhang sei erwähnt, dass sich klassische Speicherarchive meistens in aktive Archive umgewandelt haben. Der aktive Teil bezieht sich auf die neuen Archivspeicher, die auf der Basis von Object-Storage-Technologie alle Daten jeder Zeit bereithalten. Während dies vielleicht noch nicht ausreicht für moderne relationale Datenbanken, so können heutige Object-Speicher schnelle I/O-Read-Durchsatzzeiten erreichen, die geeignet sind für Such- und Abfragefunktionen, neue Dateiversionen, Online Data Recovery und Analyseaufgaben.
Cohesity, Igneous Systems und andere Hersteller kopieren primäre NAS-Daten in ein webbasiertes und skalierbares Archiv. Anstatt die Daten nur irgendwohin zu verschieben, sorgt man damit für einen schnellen und ausdauernden Datenschutz mit sofortigem Online-Recovery und einem Restore auf einem granularen Niveau, falls dies benötigt wird. Man erhält auch die gleichen primären Storage-Dateidaten in einem Object-Format, um Dinge wie Big Data Analytics, off-site-Replikation und andere Aufgaben umzusetzen, die sonst die Performance von primärem Storage beeinträchtigen würden.
6. Policy- und Regel-basiertes Management. Zunehmende IT-Automatisierung in allen Bereichen ist entscheidend, besonders für die Skalierbarkeit von Storage-Management und -Governance. Policy- und Regel-basierte Speichersysteme – wie zum Beispiel iRODS (Open Source), Starfish Storage und ClarityNow von DataFramework – können dafür sorgen, dass Zugangs- und Compliance-Anforderungen besser bedient werden. Mit ihnen lassen sich auch andere Prozesse für Lifecycle Management implementieren wie zum Beispiel Retention, Aging, Indexing, Herkunfts-Tracking und Prüfen der Datenintegrität. Regelwerke helfen bei der Verarbeitung von großen Datenmengen, unterstūtzen komplexe Background-Replikation sowie das Tiering von Aufgaben und integrieren sogar Analysefunktionen direkt in Speichersysteme. Sie werden oft bei der Verarbeitung von Daten eingesetzt, um Metadaten herauszuziehen und Dateninhalte zu indexieren und auf diese Weise eine globale Suchfunktion für Daten einzurichten. Außerdem lassen sich andere Speicherservices anstoßen.
7. Anwenderdienste und Einsatzkontrolle. Die Endanwender an ihren Arbeitsplätzen erwarten zunehmend, dass die Storage-Angebote im Unternehmen so funktionieren wie ihre privaten Speicherdienste. Für Dateien wollen die Anwender automatisch neue Versionen und selbständiges Recovery, ohne dass sie etwas unternehmen müssen, während sie bei Block- und Object-Dateien eine Elastizität wie in der Cloud erwarten. Jeder will unmittelbare Versorgung mit Arbeitsmitteln und weiteren Ressourcen, klare Übersicht über die Kosten und Performance, Zuverlässigkeit und Verfügbarkeit ohne größere Umstände. Viele Storage-Produkte stellen inzwischen den Endanwendern diese Cloud-ähnlichen Erfahrungen zur Verfügung – und die IT-Abteilung muss dafür sorgen, dass die eher negativen Seiten einer internen IT-Infrastruktur nicht zum Tragen kommen.
Das IT-Team muss Datenschutz durch Backup, Disaster Recovery und Datenintegrität garantieren und dann auch noch Security auf allen Ebenen anbieten. Viele Storage-Produkte bringen heute Datenverschlüsselung mit sich oder bieten gestützt auf Zugangsregeln Data Masking an, und außerdem werden laufend alle Arbeitsschritte überwacht und protokolliert. Mit fast unendlich elastischen – und teuren – Kapazitätsangeboten lassen sich vielleicht Quoten und File Blocking realisieren, so wie es NTP-Software mit QFS versprochen hat.
Wie man Governance und Kontrolle von unstrukturierten Daten verbessert
Copy Data Management reduziert Kopien und stellt den Zugang zu den Master Data sicher.
Automatisiertes Storage Tiering verschiebt „kältere“ Daten auf billigere Speichersysteme einschließlich Cloud-Angebote, ohne dass dabei laufende Applikationen beeinträchtigt werden.
Object Storage für aktives Backup und Archivierung reduziert die Notwendigkeit, abgetrennte Backups durchzuführen.
Das Super Storage kommt
Viele in diesem Artikel erwähnten Speicherhersteller kümmern sich um mehrere Aufgaben beim Management von unstrukturierten Daten. Man braucht gute Metadaten, um die Kapazitäten zu optimieren oder zu automatisieren und so die Kosten zu kontrollieren. Außerdem muss man die Daten quer über das ganze Unternehmen virtualisieren, um globale Enduser-Features und IT-Governance zur Verfügung zu stellen. Es geht auch oft darum, diese Fähigkeiten für weitere Governance-Aufgaben wie zum Beispiel Regionalisierung von Daten oder globale Identifizierung von Personendaten einzusetzen.
Insgesamt sind viele dieser neuen Speicherfähigkeiten auf das Management unstrukturierter Datensätze ausgerichtet, besonders auf jene großen in sekundärem Storage. Unternehmen können jetzt mehr wertvolle Informationen sammeln und auswerten, als es jemals möglich war. Diese Fähigkeiten werden weiter zusammenwachsen und wir werden schon bald so etwas wie „Super Storage“ sehen: Diese Systeme werden alles miteinander kombinieren, was primäre und sekundäre Storage-Tools heute getrennt voneinander anbieten.
Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!