thodonal - stock.adobe.com

Unstrukturierte Daten: On-Premises versus Cloud und Hybrid

Traditionelle Speichertechnologien sind nur bedingt für moderne Datentypen geeignet. Mit der Cloud und hybriden Modellen gibt es neuere Alternativen für ihre Speicherung.

Unternehmen sehen sich der Notwendigkeit gegenüber, immer größere Datenmengen zu speichern – und das mit einer wachsenden Anzahl von Daten in allen möglichen Formaten.

Daten von Unternehmen sind nicht länger auf strukturierte Daten in geordneten Datenbanken oder Anwendungen beschränkt. Stattdessen müssen Unternehmen eventuell Dokumente, E-Mails, Bilder, Videos, Audiodateien und sogar Texte aus sozialen Medien erfassen, speichern und bearbeiten. Alle Varianten enthalten Informationen, die das Potential aufweisen, die Entscheidungsfindung zu verbessern.

Aber dies führt zu Herausforderungen für IT-Systeme, die eher für strukturierte als für unstrukturierte Daten entwickelt worden sind. Dies hängt damit zusammen, dass Technologien, die zum Beispiel Datenbanken speichern, nicht besonders geeignet sind für größere Dateien, Datenmengen und langfristige Archivzwecke von unstrukturierten Daten.

Analysten von IDC und Gartner schätzen, dass heute etwa 80 Prozent der neuen Daten von Unternehmen unstrukturiert sind. Natürlich gibt es Vorteile für die Unternehmen, wenn sie diese Daten aufbewahren und analysieren, und außerdem ist in einigen Fällen langfristige Speicherung aus gesetzlichen Gründen erfordert.

Aber traditionelle Speichertechnologien wurden weder für das Volumen noch für die Bandbreite solcher Daten entwickelt.

Wie Cesar Cid Rivera, International Vice President of Systems Engineering beim Hersteller Commvault, ausführt, sorgen alleine unterschiedliche Dateigrößen – zum Beispiel eine Videodatei gegenüber einem Textdokument – für Probleme beim Speichern. Und die Unternehmen müssen sich mit dem befassen, was er einen „Dark Pool of Data“ nennt, der zum Beispiel erzeugt oder automatisch von einem zentralen System zu einem Gerät eines Endanwenders verschoben wird.

Hinzu kommt, dass Daten auch in anderen Systemen als der üblichen IT erzeugt werden, zum Beispiel von SaaS (Software-as-a-Service), Endpunkten von IoT (Internet of Things) oder selbst von ML (Machine Learning) und KI (künstliche Intelligenz). Auch diese Daten müssen gefunden, indexiert und gespeichert werden.

Dies übt Druck auf die Speicherinfrastruktur aus. Und Unternehmen stellen zunehmend fest, dass ein einziger Storage-Ansatz – komplett auf Basis von On-Premises oder auf All-Cloud – nicht ausreicht, um die Kosten zu decken und die benötigte Flexibilität und Performance zur Verfügung zu stellen. Dies führt zu wachsendem Interesse an hybriden Lösungen oder sogar an Technologien wie zum Beispiel die von Snowflake, die als Storage-agnostisch bezeichnet werden.

Olivier Fraimbault, Board Director bei SNIA EMEA, führt hierzu aus: „Die zu berücksichtigenden Kriterien sind das Volumen, die Data Gravity sowie die Bedeutung und Lebensdauer der Daten – wo sie erzeugt wurden, wo sie benutzt, berechnet und eingesetzt werden. Weitere Kriterien sind Sicherheit, Bandbreite, Vorschriften, Latenz, Kosten, Änderungsraten, erforderliche Übertragung und deren Kosten.“

Und er fügt hinzu: „Das hauptsächliche Problem, das ich sehe, besteht nicht so sehr in der Speicherung großer Mengen an unstrukturierten Daten, sondern darin, wie man mit dem Datenmanagement und nicht so sehr mit dem Storage-Management zurechtkommt.“

Nichtsdestotrotz müssen die Unternehmen bei jeder möglichen Technologie die konventionellen Performance-Metriken für Speicher, besonders die für I/O und Latenz, beachten – aber auch die für Preise, Belastbarkeit und Sicherheit.

Unstrukturierte Daten vor Ort verwalten

Der konventionelle Ansatz für das Speichern unstrukturierter Daten am lokalen Standort wurde durch ein hierarchisches Dateisystem organisiert, das entweder durch Direct-Attached Storage (DAS) in einem Server oder durch einen dedizierten Network-Attached Storage (NAS) bereitgestellt wurde.

Unternehmen haben auf die wachsenden Speicheranforderungen reagiert, indem sie sich größeren Scale-Out-NAS-Systemen zugewandt haben. Der On-Premises-Markt hierfür ist gut bestückt mit Lieferanten wie Dell EMC, NetApp, Hitachi, HPE und IBM, die alle NAS-Technologie mit hohen Kapazitäten sowie unterschiedliche Kombinationen von Kosten und Performance anbieten.

Generell gilt, dass Anwendungen mit niedrigen Latenzzeiten – wie zum Beispiel Streaming-Medien oder seit neuestem KI-Trainingssysteme – durch Flash-basierte NAS-Hardware von Seiten der traditionellen Hersteller gut bedient sind.

Aber für besonders umfangreiche Datensätze und die Anforderung, den Wechsel zwischen On-Premises- und Cloud-Systemen zu erleichtern, werden jetzt auch lokale Versionen mit Object Storage angeboten.

Die großen Cloud-„Superscaler“ bieten sogar On-Premises Object-basierte Technologie an, so dass Unternehmen auch die Vorteile von globalem Namespace und die Funktionen für Data Protection bei Object Storage verwenden können, bei gleichzeitigen Sicherheits- und Performance-Vorteilen von lokalem Speicher. Wie jedoch die SNIA warnt, fehlt diesen Systemen in der Regel die Interoperabilität zwischen den Herstellern.

Die Hauptvorteile von On-Premises-Storage für unstrukturierte Daten bestehen in Performance, Security sowie Compliance und Kontrolle: Die Unternehmen kennen ihre Speicherarchitektur und können sie auf eine detaillierte Weise verwalten.

Die Nachteile finden sich bei den Kosten, einschließlich der Anschaffungskosten, bei einem Mangel an Skalierungsfähigkeiten (sogar NAS-Systeme auf Scale-out-Basis treffen bei sehr großen Volumen auf einen Performance-Engpass), bei einem Mangel an Redundanzen und eventuell bei der Belastbarkeit.

Wechsel in die Cloud?

Dies hat Unternehmen dazu gebracht, sich wegen der geringeren Anfangskosten und der Fähigkeit zu skalieren, sich für Cloud Storage zu interessieren.

Bei Object Storage – und fast alle Cloud-Speicher sind Object-basiert – gibt es auch die Fähigkeit, große Mengen an unstrukturierten Daten effizient zu verarbeiten. Ein Global Namespace und die Art, wie Metadaten und Daten getrennt werden, verbessern die Belastbarkeit.

Des Weiteren nähert sich die Performance derjenigen von lokalem Speicher an. In der Tat ist Cloud Object Storage gut genug für viele Geschäftsanwendungen, bei denen I/O und speziell die Latenz weniger entscheidend sind.

Die Speicherung in der Cloud senkt die (Vorab-)Kosten für Hardware und ermöglicht eine potenziell unbegrenzte langfristige Speicherung. Die Unternehmen müssen auch keine redundanten Systeme für Data Protection aufbauen. Dies kann innerhalb der Dienste des Cloud-Anbieters geschehen oder – mit der richtigen Architektur – durch Aufteilung der Daten auf die Clouds mehrerer Anbieter.

Weil die Daten hier schon in der Cloud sind, ist es relativ unkompliziert, sie mit neuen Systemen wie zum Beispiel einem Szenario für Disaster Recovery zu verlinken oder sie mit neuen Anwendungen auf der Kundenseite durch APIs (Application Programming Interfaces) zu verbinden. Mit Amazon S3, der de facto etablierten Technologie für Object Storage, ist es für Geschäftsanwendungen leichter denn je, sich mit Datenspeichern in der Cloud zu verbinden.

Und mit Daten in der Cloud sollten Anwender nur wenige oder unbedeutende Performance-Beeinträchtigungen sehen, wenn sie sich innerhalb der IT ihres Unternehmens oder außerhalb bewegen.

Zu den Nachteilen von Cloud Storage gehören niedrigere Performance im Vergleich zu On-Premises-Storage, besonders bei I/O-lastigen oder Latenz-intoleranten Anwendungen, potentiellen Managementschwierigkeiten und potentiellen versteckten Kosten.

Auch wenn die Cloud oft als Möglichkeit gesehen wird, Geld zu sparen, können versteckte Kosten wie zum Beispiel Ausstiegsgebühren (Egress) schnell die Kosteneinsparungen wieder aufzehren. Und, wie Fraimbault von der SNIA EMEA anmerkt, ist es zwar inzwischen recht einfach, Container zwischen Cloud-Systemen zu verschieben, aber so etwas wird komplexer, wenn sie mit eigenen Daten verbunden sind.

Hybride Optionen

Als Resultat lässt sich sagen, dass eine wachsende Anzahl von Anbietern nun hybride Technologien offerieren, die die Vorteile von lokalem On-Premises-Storage mit dem Object-Ansatz und der Skalierbarkeit von Cloud-Ressourcen miteinander verbinden.

Dieser Ansatz, das Beste aus beiden Welten zusammenzubringen, eignet sich gut für unstrukturierte Daten, wegen ihrer unterschiedlichen Natur, den diversen Dateigrößen und der Art, wie mehrere Anwendungen darauf Zugriff bekommen.

Ein System, das relativ kleine Textdateien wie zum Beispiel E-Mails neben großen Bilddateien verarbeiten und sie mit gleicher Qualität verfügbar machen kann für Business Intelligence, KI-Systeme und menschliche Akteure, ist besonders attraktiv für CIOs und Spezialisten für Datenmanagement.

Außerdem wollen Unternehmen ihre Speichertechnologien zukunftssicher machen, um zum Beispiel neue Entwicklungen wie Container zu unterstützen. Fraimbault von der SNIA sieht in der Art und Weise, wie hybride Clouds sich zu Containern anstatt zu virtuellen Maschinen hinbewegen, einen wichtigen Treiber für das Speichern von unstrukturierten Daten in Object-Storage-Systemen.

Hybride Clouds bieten das Potential, Speichersysteme entsprechend zu ihren Workloads zu optimieren und Systeme wie Scale-Out-NAS sowie DAS- und SAN-Speicher dort beizubehalten, wo Anwendung und Performance dies erfordern.

Aber Anwendungen mit niedrigerer Performance können auf Daten in der Cloud zugreifen, und Daten können für die langfristige Speicherung und Archivierung in die Cloud verschoben werden. Schließlich könnten Daten nahtlos in die Cloud und aus der Cloud heraus und zwischen Cloud-Anbietern verschoben werden, ohne dass die Anwendung oder der Endanwender dies bemerken.

Dies geschieht bereits durch Speichertechnologien wie zum Beispiel die von Snowflake, bei denen man Gebrauch von lokalem und Cloud-Storage macht und seit letztem Jahr auch unstrukturierte Daten unterstützt.

Inzwischen unterstützen auch andere Hersteller wie zum Beispiel Microsoft verstärkt hybriden Speicher, in diesem Fall durch seine Azure Data Factory und ihren Service für Datenintegration.

Das Beste von allen Welten?

Die Idee eines Speichers, der wirklich standortunabhängig ist, ist jedoch noch nicht umgesetzt, nicht zuletzt weil die Geschäftsmodelle der Cloud auf Gebühren für den Datentransport beruhen. Laut einer Warnung des Enterprise Storage Forum kann dies zu überhöhten Kosten führen.

In der Tat hat eine jüngste Umfrage des Anbieters Aptum herausgefunden, dass fast die Hälfte der Unternehmen eine verstärkte Verwendung von konventionellem Cloud Storage erwartet. Bislang gibt es keinesfalls eine einheitliche Technologie für unstrukturierte Daten.

Erfahren Sie mehr über Cloud Storage