Tierney - stock.adobe.com

Storage für unstrukturierte Daten: On-Premises vs. Cloud

Erfahren Sie hier, welche Formen unstrukturierter Daten es gibt, und was die wichtigsten verfügbaren Speicheroptionen sind, wie NAS und Objektspeicher vor Ort und in der Cloud.

Unstrukturierte Daten breiten sich massiv aus. Ihr Volumen wächst jährlich um mehr als 50 Prozent, und laut IDC werden sie bis 2025 sogar 80 Prozent aller Daten ausmachen und tun dies bei einigen Unternehmen bereits.

Das bedeutet, dass unstrukturierte Daten ein potenzielles Speicherproblem darstellen, aber auch eine wertvolle Quelle von Informationen sind.

Es gibt eine weitere 80-Prozent-Angabe, die in Bezug auf unstrukturierte Daten kursiert, nämlich dass vier Fünftel aller geschäftsrelevanten Informationen aus unstrukturierten Daten, meist Text, stammen.

Sie befinden sich in E-Mails, Berichten, Artikeln, Kundenrezensionen, Kundennotizen und anderen Formen von unstrukturiertem Text. Sie finden sich auch in Social-Media-Posts, medizinischen Forschungsergebnissen, Videos, Sprachaufzeichnungen und Daten zur Fernüberwachung von Systemen (IoT, Internet of Things). Mit anderen Worten: Unstrukturierte Daten sind sehr vielfältig und können von wenigen Bytes bis zu sehr großen Datenmengen reichen.

Unabhängig davon, ob die Zahl von 80 Prozent korrekt ist oder nicht, verdeutlicht sie die Bedeutung von unstrukturierten Daten.

In diesem Artikel befassen wir uns mit der enormen Vielfalt unstrukturierter Daten, mit den Strukturen, die in unstrukturierten Daten existieren, mit NAS- und Objektspeichern sowie mit Cloud-Diensten, die auf unstrukturierte Daten ausgerichtet sind.

Keine Einheitsgröße in Sachen Speicher

In Bezug auf Größe und Format können unstrukturierte Daten alles umfassen, von IoT-Fernüberwachungsdaten bis hin zu Videos. Das umfasst Dateigrößen von wenigen Bytes bis zu mehreren Gigabytes oder mehr. Dazwischen gibt es viele textbasierte Daten, die aus E-Mails, Berichten, Kundeninteraktionen und ähnlichen Anwendungen stammen.

Um sie zu definieren, können wir sagen, dass es sich um die Art von Daten handelt, die nicht in dem strukturierten Format gehalten werden, das wir mit einer traditionellen relationalen Datenbank assoziieren. Stattdessen können sie in jeder Form zwischen Rohdaten und einer Art NoSQL-Datenbank vorliegen, die in Wirklichkeit eine Reihe von Produkten/Methoden zur Ordnung von Daten umfassen, die über die traditionelle SQL-Methode hinausgehen.

Welche Art an Speicher erforderlich ist, hängt von zwei Dingen ab. Wir sprechen hier nicht über die verwendete Datenbank, sondern über den Speicher, auf dem diese sitzt. Die Anforderungen beziehen sich hier auf die Kapazität, aber auch auf die E/A-Anforderungen, die von der Organisation an ihn gestellt werden.

Speicher für unstrukturierte Daten kann also alles sein, von relativ geringem Volumen und geringer I/O-Leistung - als NAS- oder Objektspeicher-Appliance oder Cloud-Instanz – bis hin zu riesigen, hoch performanten verteilten Datei- oder Objektspeichern.

Unstrukturiert heißt nicht „ohne Struktur“

„Unstrukturiert“ kann eine falsche Bezeichnung sein. In der Tat könnte man unstrukturierte Daten auf einem Kontinuum sehen. An einem Ende wären Dinge wie IoT-Daten, E-Mails, Dokumente und möglicherweise einige weniger offensichtliche Kandidaten wie Sprachaufzeichnungen und Video, die über Metadaten-Header oder Formate (XML, JSON) verfügen, die eine grundlegende Analyse ermöglichen. Dies sind halbstrukturierte Daten.

Am anderen Ende der Skala stehen riesige Textmengen, die von Websites oder Social-Media-Posts stammen und am schwierigsten zu analysieren und zu verarbeiten sind.

Es würde den Rahmen dieses Artikels sprengen, im Detail auf Data Lakes, Warehouses, Marts, Swamps und so weiter Formen einzugehen, sowie auf die Methoden zur Ordnung der Daten in ihnen, zum Beispiel in NoSQL.

Die wichtigste Entscheidung aus dem ersten Punkt bleibt bestehen – der Backend-Speicher wird von der benötigten Kapazität und den Zugriffszeiten, dem I/O-Profil und möglicherweise der Verfügbarkeit sowie der Fähigkeit zur Skalierung abhängen.

Scale-Out NAS

NAS ist nicht mehr das, was es einmal war. Scale-Out NAS hat den Dateizugriffsspeicher in den Bereich sehr hoher Kapazität und Leistung gebracht. Früher bedeutete NAS einen einzelnen Filer, und das barg das Potenzial, sich zu isolieren.

Scale-Out NAS basiert auf einem parallelen Dateisystem, das einen einzigen Namensraum über mehrere NAS-Systeme hinweg bereitstellt und die Möglichkeit bietet, auf Milliarden von Dateien zu skalieren. Die Kapazität kann erhöht werden, und in einigen Fällen auch die Verarbeitungsleistung.

Scale-Out NAS hat den Vorteil, dass es Posix-kompatibel ist, also gut mit herkömmlichen Anwendungen zusammenarbeitet und von Funktionen wie Dateisperren profitiert, was aus Sicht des Zugriffs wichtig sein kann. Scale-Out NAS war bis vor kurzem auch die einzige Wahl für hochleistungsfähige unstrukturierte Daten, obwohl Objektspeicher auf dem Vormarsch sind.

Scale-Out-NAS-Speicher vor Ort ist von den fünf großen Herstellern physischer Speicherarrays erhältlich – Dell EMC, NetApp, Hitachi, HPE und IBM. Diese bieten auch Möglichkeiten, Daten in die Cloud zu verschieben und offerieren in einigen Fällen Cloud-Instanzen dieser NAS-Produkte.

Alle drei großen Cloud-AnbieterAWS, Azure und Google Cloud – bieten Dateispeicher an, der von Standard- bis zu Premium-Service-Levels reicht und oft auf NetApp-Storage basiert.

Es gibt auch eine neue Generation von File-Storage-Produkten, die für den Einsatz in der Hybrid Cloud entwickelt wurden. Dazu gehören Qumulo, WekaIO, Nexenta und Hedvig. Elastifile zählt ebenso dazu, wurde aber 2019 von Google gekauft.

Objektspeicher

Objektspeicher ist ein neuerer Ansatz für die Speicherung unstrukturierter Daten. Er speichert Daten in einem flachen Format, auf das über eine eindeutige ID zugegriffen wird, mit Metadaten-Headern, die eine Suche und einige Analysen ermöglichen.

Objektspeicher gewann an Zugkraft als Alternative zu einigen der Nachteile von Scale-Out NAS, das aufgrund seiner hierarchischen Struktur Leistungseinbußen erleiden kann, wenn es wächst. Object Storage ist auch das native Format der Cloud. Es ist enorm skalierbar und über Anwendungsprogrammierschnittstellen (APIs) zugänglich, was gut zur DevOps-Arbeitsweise passt.

Im Vergleich zum Dateispeicher fehlt dem Objektspeicher die Dateisperre, und bis vor kurzem lag er in puncto Leistung zurück, doch das ändert sich gerade und wird durch den Bedarf an schneller Analyse unstrukturierter Daten vorangetrieben.

Alle fünf großen Unternehmen bieten Objektspeicher für den Einsatz vor Ort an, wobei es Möglichkeiten gibt, Objektspeicher in der Cloud zu nutzen. Außerdem gibt es Objektspeicher-Spezialisten wie Scality, Cloudian, Quantum, Pure Storage und das Open-Source-System Ceph.

Die grundlegenden Speicherangebote aller großen Cloud-Anbieter basieren auf Objektspeicher, wobei unterschiedliche Service-/Leistungsklassen angeboten werden. AWS zum Beispiel bietet verschiedene Klassen von S3-Speicher an, die sich je nach Anforderungen an die Zugriffszeit und den Wert oder die Reproduzierbarkeit der Daten unterscheiden.

Cloud-Vorteile

Alle drei großen Cloud-Anbieter offerieren ihre Kern-Objektspeicherdienste für den Einsatz als Data Lake Storage. Microsoft bietet mit Azure Data Lake einen gezielten Dienst für unstrukturierte Daten.

Die Vorteile sind hier, dass der Cloud-Anbieter erweiterbare Kapazitäten und die Möglichkeit bietet, Daten beispielsweise über Gateways dorthin zu bringen. Der Nachteil ist natürlich, dass man dafür bezahlen muss, und je mehr Daten man in den Data Lake einspeist, desto mehr kostet es.

Außerdem bieten die Hyperscaler NoSQL-Datenbanken in ihren Clouds an. Das können ihre eigenen sein – Google Datastore, Amazon DynamoDB, Azure Cosmos DB – oder NoSQL-Datenbanken von Drittanbietern, die in ihren Clouds eingesetzt werden können.

Erfahren Sie mehr über Object Storage