Petrovich12 - stock.adobe.com
Data Gravity: Was es ist und wie sie damit umgehen
Data Gravity kann größere Datenmengen anziehen und verlangt einen hohen Verwaltungsaufwand. Wir erklären, wie Data Gravity in Rechenzentren und in der Cloud gemildert werden kann.
Wenn es um Unternehmensanwendungen geht, ist der Zugang zu Daten - und zwar zu vielen - normalerweise eine gute Sache. Je mehr Daten lokal gespeichert und verarbeitet werden, desto besser für das Unternehmen, seine Anwendungen, die Entscheidungsfindung und in manchen Fällen auch für die Einhaltung von Vorschriften.
Doch die Notwendigkeit, Daten zu speichern und zu verwalten, bringt auch eigene Probleme mit sich, darunter höhere Kosten, eine geringere Systemleistung und einen höheren Verwaltungsaufwand. Wir haben es hier mit dem Konzept der Data Gravity (Datengravitation) zu tun.
Es gibt immer mehr Belege dafür, dass datenreiche Systeme mehr Daten anziehen. Dies wiederum zieht noch mehr datenabhängige Anwendungen an, die dann noch mehr Daten akkumulieren.
Die Idee der Data Gravity wurde erstmals von dem IT-Forscher Dave McCrory im Jahr 2010 formuliert. Er vertrat die Ansicht, dass Unternehmen, die Daten an einem Ort sammeln, eine „Masse“ aufbauen. Diese Masse zieht Dienste und Anwendungen an, denn je näher sie an den Daten sind, desto besser sind die Latenzzeit und der Durchsatz.
Je mehr Daten zusammenkommen, desto mehr beschleunigt sich der Prozess. Schließlich kommt es zu einer Situation, in der es schwierig oder unmöglich wird, Daten und Anwendungen an einen anderen Ort zu verlagern, um die Workflow-Anforderungen des Unternehmens zu erfüllen.
Infolgedessen steigen die Kosten, die Arbeitsabläufe werden weniger effektiv, und die Unternehmen können Probleme mit der Einhaltung von Vorschriften bekommen. McCrory, der jetzt bei Digital Realty arbeitet, veröffentlicht einen Index der Data Gravity. Er geht davon aus, dass die Data Gravity, gemessen in Gigabyte pro Sekunde, zwischen 2020 und 2024 um 139 Prozent zunehmen wird. Dies wird die IT-Infrastruktur belasten, so McCrory.
Bei Forrester beschreiben die Forscher Data Gravity als ein Huhn und Ei-Phänomen. In einem kürzlich erschienenen Bericht über Trends in Rechenzentren wird das Problem beschrieben.
„Das Konzept besagt, dass mit dem Anwachsen der Daten an einem bestimmten Ort zwangsläufig auch zusätzliche Dienste und Anwendungen auf die Daten zugreifen, da sie Latenz- und Durchsatzanforderungen haben“, heißt es darin. „Dies führt dazu, dass die Datenmenge am ursprünglichen Standort wächst.“
Schwerer zu skalieren
Beispiele für Data Gravity sind Anwendungen und Datensätze, die näher an einen zentralen Datenspeicher verlagert werden, der vor Ort oder an einem anderen Standort sein kann. Dadurch wird die vorhandene Bandbreite optimal genutzt und die Latenzzeit verringert. Aber es schränkt auch die Flexibilität ein und kann die Skalierung für neue Datensätze oder die Einführung neuer Anwendungen erschweren.
Data Gravity tritt auch in der Cloud auf. Da die Cloud-Datenspeicher immer größer werden, wandern Analyse- und andere Anwendungen zu ihnen. Dies macht sich die schnelle Skalierbarkeit der Cloud zunutze und minimiert Leistungsprobleme.
Das Problem der Data Gravity wird dadurch jedoch noch verschärft. Je mehr Daten ein Unternehmen speichert, desto teurer wird es, sie zu verschieben, bis zu dem Punkt, an dem es unwirtschaftlich wird, zwischen Plattformen zu wechseln.
McCrory bezeichnet dies als „künstliche“ Data Gravity, die durch die Finanzmodelle der Cloud-Dienste und nicht durch die Technologie verursacht wird.
Forrester weist darauf hin, dass neue Quellen und Anwendungen, darunter maschinelles Lernen/künstliche Intelligenz (KI), Edge-Geräte oder das Internet der Dinge (IoT), ihre eigene Data Gravity erzeugen können, insbesondere wenn Unternehmen es versäumen, für das Datenwachstum zu planen.
Das Datenwachstum am Unternehmensrand (Edge) stellt eine Herausforderung bei der Lokalisierung von Diensten und Anwendungen dar, es sei denn, Unternehmen können Daten vor Ort (oder möglicherweise während der Übertragung) herausfiltern oder analysieren. Die Zentralisierung dieser Daten ist wahrscheinlich teuer und verschwenderisch, wenn ein Großteil der Daten nicht benötigt wird.
Auswirkungen auf das Storage
Data Gravity hat im Wesentlichen zwei Auswirkungen auf den Speicher: Sie treibt die Kosten in die Höhe und macht die Verwaltung schwieriger. Die Kosten werden mit dem Kapazitätsbedarf steigen, wobei der Anstieg bei Systemen vor Ort wahrscheinlich nicht linear sein wird.
In der Praxis werden die Unternehmen feststellen, dass sie in neue Speicher-Arrays investieren müssen, wenn sie an ihre Kapazitätsgrenzen stoßen, was möglicherweise teure Investitionsausgaben erfordert. Es ist jedoch sehr wahrscheinlich, dass sie auch in anderen Bereichen investieren müssen, um die Nutzung und Leistung zu verbessern.
Dazu könnten mehr Solid-State-Speicher oder Tiering gehören, um weniger genutzte Daten von den leistungsstärksten Systemen zu entfernen, sowie redundante Systeme, um die Verfügbarkeit zu gewährleisten, und Speichermanagement-Tools, um den gesamten Prozess zu steuern.
Einige Anbieter berichten, dass Unternehmen auf hyperkonvergente Systeme zurückgreifen, die Speicher, Verarbeitung und Netzwerk in einem Gehäuse vereinen, um den wachsenden Speicherbedarf zu bewältigen und gleichzeitig die Leistung zu steigern. Indem sie die Verarbeitung und die Daten näher zusammenbringen, sorgen hyperkonvergente Systeme für mehr Nähe und geringere Latenzzeiten. Aber auch bei diesen Systemen ist eine reibungslose Skalierung schwieriger.
In der Cloud lässt sich die Kapazität gleichmäßiger skalieren, so dass CIOs in der Lage sein sollten, die Datenspeicher besser an das Datenvolumen anzupassen.
Allerdings können nicht alle Unternehmen ihre gesamten Daten in die Cloud verlagern, und selbst diejenigen, bei denen dies aufgrund gesetzlicher Vorschriften und Kundenanforderungen möglich ist, müssen die Kosten und den Zeitaufwand für die Datenverlagerung berücksichtigen.
Die Nähe der Daten zur Verarbeitung ist nicht garantiert, so dass Unternehmen Cloud-Architekten benötigen, die Rechen- und Speicherkapazität aufeinander abstimmen und sicherstellen können, dass der Cloud-Speicher mit ihren aktuellen Analyseanwendungen funktioniert. Außerdem müssen sie darauf achten, dass keine Kosten für den Datenzurückführung (Egress) entstehen, insbesondere bei Daten, die häufig zu Business Intelligence und anderen Tools weitergeleitet werden.
Cloud-native Anwendungen, wie Amazon QuickSight, sind eine Möglichkeit. Eine andere Option ist die Verwendung von Cloud-Gateways und Cloud-nativen Technologien wie Objektspeicher, um Daten zwischen lokalen und Cloud-Standorten zu optimieren. Forrester sieht beispielsweise Unternehmen, die kritische Anwendungen in Rechenzentren mit direktem Zugriff auf Cloud-Speicher auslagern.
Gleichzeitig müssen CIOs ein rigoroses Kostenmanagement betreiben und sicherstellen, dass Cloud-Käufe auf Pump keine eigenen Hotspots an Data Gravity schaffen. Der Technologe Chris Swan hat ein Kostenmodell der Datengravitation für Cloud-Speicher entwickelt, das ein recht genaues Bild vermittelt.
Der Umgang mit Data Gravity
CIOs, Analysten und Anbieter sind sich einig, dass Data Gravity nicht beseitigt werden kann, sondern nur gemanagt werden muss.
Für die CIOs und Chief Data Officers von Unternehmen bedeutet dies, ein Gleichgewicht zwischen zu vielen und zu wenigen Daten zu finden. Sie sollten die Unternehmen hinsichtlich der Daten, die sie sammeln, und der Daten, die sie vorhalten, hinterfragen. Werden all diese Daten benötigt? Könnten einige davon näher am Edge analysiert werden?
Die Bewältigung der Data Gravity bedeutet auch, dass robuste Datenmanagement- und Datenverwaltungsstrategien vorhanden sein müssen. Dies sollte sich auch auf das Löschen nicht benötigter Daten und die Anwendung eines effektiven Tiering und der Archivierung zur Kostensenkung erstrecken.
Die Cloud wird eine Rolle spielen, aber die Kosten müssen kontrollierbar bleiben. Unternehmen werden wahrscheinlich mehrere Clouds nutzen, und Data Gravity kann kostspielige Datenbewegungen verursachen, wenn die Anwendungs- und Speicherarchitekturen nicht gut konzipiert sind. Vor allem Analyseanwendungen können Silos bilden. Unternehmen müssen ihre Datensätze untersuchen und sich fragen, welche davon für Data Gravity anfällig sind. Diese Anwendungen müssen dort gehostet werden, wo das Storage skaliert werden kann.
Tools, mit denen Daten vor Ort analysiert werden können und die das Verschieben großer Datenmengen überflüssig machen, können die Auswirkungen der Data Gravity und auch einige der Kostennachteile der Cloud verringern. Dies kommt vor allem dann zum Tragen, wenn Unternehmen Datensätze über mehrere Cloud-Regionen, Software-as-a-Service (SaaS)-Anwendungen oder sogar Cloud-Anbieter hinweg betrachten müssen.
Unternehmen sollten auch den Netzwerkrand betrachten, um herauszufinden, ob sie die Datenmengen, die in die Zentrale fließen, reduzieren und stattdessen Echtzeit-Analysen der Datenströme nutzen können.
Angesichts der ständig wachsenden Nachfrage nach Geschäftsdaten und Analysen ist es unwahrscheinlich, dass CIOs und CDOs in der Lage sein werden, Data Gravity zu beseitigen. Aber mit neuen und aufkommenden Datenquellen wie KI und IoT haben sie zumindest die Chance, eine Architektur zu entwerfen, die sie kontrollieren kann.