Gorodenkoff - stock.adobe.com
So nützlich ist Objektspeicher für unstrukturierte Daten
Unstrukturierte Daten machen mittlerweile einen Großteil des Datenwachstums aus. Storage-Technologien wie Object Storage können helfen, mit diesen Daten umzugehen.
Unstrukturierte Daten – bestehend unter anderem aus Dateien in Form von Videos, Bildern, Dokumenten, Backups, IoT-Daten oder Logs – sind die am schnellsten wachsende Art von Daten. Grob geschätzt sollen diese Daten rund 80 Prozent der gesamten Daten ausmachen und somit einen massiven Teil dieses Wachstums darstellen.
Angewandt auf die Vorhersage von IDC, dass die globale Datenmenge bis 2025 auf 175 Zettabyte (ZByte) wachsen wird, von 33 ZByte im Jahr 2018, sind das geschätzte 140 ZByte unstrukturierter Daten. Zeitgleich zu diesem enormen Datenwachstum, erleben wir, dass sich Technologien entwickeln und immer besser werden, die alle diese Daten nutzen können. Der Wert der heutigen Daten und ihr potenzieller Zukunftswert zwingen uns, mehr Informationen und über einen längeren Zeitraum zu speichern.
Cloud Object Storage ist eine effiziente Möglichkeit, Daten kurz- und langfristig zu speichern – auch wenn ihr Wert vielleicht noch unbekannt ist. Ob radiologische Bilder im Gesundheitswesen, Videoinhalte für Unterhaltung oder Training, Überwachung und digitale Beweise für die Strafverfolgung, IoT-Daten und Protokolle oder Backup-Dateien: diese Daten müssen oft über einen längeren Zeitraum gespeichert werden.
Für diese Art und Menge an unstrukturierten Daten ist der traditionelle Speicher einfach nicht geeignet. Vor zwanzig Jahren konnte eine große Datenbank 100 Gigabyte Speicherplatz umfassen, und niemand hätte mit einem Terabyte an Daten für die Verwaltung in gerechnet.
Jetzt können einzelne Dateien mehrere Gigabyte groß sein, und Unternehmen erzeugen, speichern und verwalten Petabytes von Daten. Eine Ganzkörper-CT-Scan-Studie, die in einem Krankenhaus erstellt wird, kann beispielsweise aus 40 GByte-Dateien bestehen, und das ist nur für eine einzige Patientenstudie – stellen Sie sich vor, diese ist um 1000 Patienten und mehrere Jahre skaliert. Herkömmliche Block-Storage-Arrays und sogar Dateisysteme wurden nicht für diese Größenordnung entwickelt.
Vor über einem Jahrzehnt entwickelten die „hyperskalierenden“ Cloud-Anbieter (AWS, Azure, Google) Cloud-Storage-Dienste auf Basis des Objektmodells, wobei der Vorläufer und beliebteste Dienst AWS S3 (Simple Storage Service), jetzt aber auch Azure Blob Storage, Google Cloud Storage (GCS) und andere umfasst. Bald darauf folgten Anbieter von Storage-Software, die Lösungen für lokale Rechenzentren nach ähnlichen technologischen Prinzipien entwickelten. Der Hauptaspekt dieser Objektspeicherlösungen war dabei:
- Flat Namespace: Eine Fähigkeit, über die hierarchische Verzeichnisstruktur von Dateisystemen hinaus zu skalieren, indem ein viel einfacherer und skalierbarerer Namensraum von Schlüsseln (Objektbezeichnern) beibehalten wird, die auf Werte (Objekte, die die tatsächlichen Daten-Workloads darstellen) abgebildet werden.
- RESTful APIs: Statt zustandsbehafteter (stateful - sitzungsbasierter) Dateisystemprotokolle wie SMB und NFS fordert das Cloud-Modell zustandslose (stateless) „request/response“-basierte Protokolle, die mit der Sprache und dem Transportmechanismus des Internets arbeiten: HTTP. Das bedeutet, dass dieses Cloud Object Storage gut im Internetmaßstab funktioniert, mit höheren Latenzen und für Dienste, die viel verteilter sind, als dies bei älteren (Block- oder dateibasierten) Anwendungen der Fall war.
- Umfangreiche Metadaten: die Fähigkeit, Daten (Objekte) mit zusätzlichen Attributen zu kennzeichnen, die die Objektdaten beschreiben. Dadurch werden der Wert und die Semantik der Daten über die einfachen Attribute hinaus erweitert, die in einem Dateisystem erfasst werden (zum Beispiel Dateigröße, Eigentümer, Berechtigungen).
Wenn Unternehmen einen neuen Blick darauf werfen, wie sie Daten verwalten, zeichnen sich die Cloud Object Storage durch Flexibilität, Skalierbarkeit und einfache Verwaltung aus. Ein wesentliches Hindernis für die Akzeptanz von Cloud Object Storage für viele Jahre war das Fehlen einer standardmäßigen oder voreingestellten RESTful API, ähnlich wie NFS und SMB die de-facto-Protokolle für dateibasierte Netzwerkspeichersysteme wurden.
Es entstanden mehrere konkurrierende Objektprotokoll-Standards, darunter OpenStack SWIFT, SNIAs CDMI und herstellerspezifische APIs wie EMCs Atmos API und AWS S3. Letztendlich haben die meisten unabhängigen Softwareanbieter (ISVs) heute die AWS S3 API als Standard-API für den Zugriff auf Cloud-basierte Objektspeicher sowie lokale Objektspeicherlösungen übernommen. Dies hat die Barriere für die Einführung von Cloud Object Storage in Unternehmensanwendungen weitgehend beseitigt und damit die Akzeptanz deutlich erhöht.
Cloud Object Storage ist daher eine attraktive Lösung für die meisten unstrukturierten Daten, die ein Unternehmen besitzt, erfordert aber eine sorgfältige Prüfung Ihrer langfristigen Datenhaltung und Ihres Zugangsbedarfs. Berücksichtigen Sie, wie sich Ihre Anforderungen an die Datenspeicherung und Datennutzung ändern werden, wenn sich Ihr Unternehmen weiterentwickelt, um neuen und aufkommenden Anforderungen wie dem IoT gerecht zu werden.
IoT bringt hohes Datenvolumen, das in Intelligenz umgewandelt werden kann, um Herstellungsprozesse zu optimieren oder Verbrauchererkenntnisse zu liefern, um ein besseres, personalisierteres Erlebnis zu bieten. Andere Überlegungen können sein, wie Sie Ihre Präsenz in den Clouds ausbauen und Multi-Cloud-Umgebungen sowie Ihre Edge-Strategie verwalten.
„Letztendlich geht es darum, Datenzugriff zu ermöglichen – Daten dorthin zu bringen, wo sie am besten genutzt werden können.“
Paul Speciale, Scality
Die Zunahme von Core Enterprise (Private) und Public Clouds und das Aufkommen von Edge Computing aus Milliarden von Geräten führen zu massiven neuen Datenmanagementproblemen. Exabytes von Daten werden generiert und am Rande verbraucht, mit dedizierten lokalen Cloud-Infrastrukturen, die für große Gemeinschaften von Edge-Benutzern und -Geräten bereitgestellt werden. Diese resultierende Datenflut erfordert bewährte Lösungen zur Speicherung, Steuerung und Orchestrierung großer Datenmengen im Rechenzentrum (Core) und am Rand der IT-Infrastruktur (Edge).
Letztendlich geht es darum, Datenzugriff zu ermöglichen – Daten dorthin zu bringen, wo sie am besten genutzt werden können, den Zugang zu ihnen für diejenigen zu ermöglichen, die sie haben sollten, und diejenigen zu sperren, die sie nicht haben sollten.
Die Prioritäten in der heutigen Datenwirtschaft liegen auf Datensicherheit und Multi-Tenancy, Agilität, Unterstützung von nativen Cloud-Anwendungen und Legacy-Anwendungen. Alle teilen heute die gleiche Bedeutung, da Unternehmen eine Mischung aus traditionellen Core- und Edge-Rechenzentren, lokalen privaten Cloud-Stacks wie AWS Outpost, Azure Stack und Google GKE sowie Public Cloud einsetzen.
Viele davon werden neue Anwendungs- und Infrastrukturlösungen nutzen, die auf Basis von containerbasierten Mikroservices und Kubernetes bereitgestellt werden, und bis 2021 von bis zu 39 Milliarden Edge-Geräten genutzt werden, so IDC.
Über den Autor:
Paul leitet das Produktmanagement für Scality, wo er für die Definition der RING-Funktionalität, Lösungen und Roadmaps verantwortlich ist. Vor Scality hatte er das Glück, Teil mehrerer spannender Cloud-Computing- und Early-Stage-Storage-Unternehmen gewesen zu sein, darunter Appcara, wo er sich auf Cloud-Anwendungsautomationslösungen konzentrierte; Q-layer, eines der ersten Cloud Orchestrierungsunternehmen (das letzte von Sun Microsystems übernommene Unternehmen); und Savvis, wo er die Einführung des Savvis VPDC Cloud Service leitete. Im Speicherbereich war Paul VP von Products for Amplidata, das sich auf die Speicherung von Objekten konzentrierte, und Agami Systems, das skalierbare, leistungsstarke NAS-Lösungen entwickelte.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.