photobank.kiev.ua - Fotolia

Storage-Tipps: Strukturierte Daten und ihr Speicherbedarf

Strukturierte Daten nehmen im Verhältnis zu allen Daten ab. Ihre Bedeutung für Geschäftsanwendungen und die organisierte Struktur machen ihre Speicheranforderungen sehr spezifisch.

Das Marktforschungsunternehmen IDC hat Zahlen veröffentlicht, nach denen unstrukturierte Daten im Jahresvergleich um 29,8 Prozent wachsen, strukturierte Daten hingegen nur um 19,6 Prozent zunehmen. Dieses Wachstum wird durch neue Datensätze getrieben, die aus Quellen wie Social Media, Industrie 4.0 oder dem Internet der Dinge (IoT) stammen, und durch die Bereitschaft der Unternehmen, immer mehr unstrukturierte Daten für Text- und andere erweiterte Analysen zu speichern.

Strukturierte Daten bleiben jedoch wichtig, und diese Tatsache wird durch das anhaltende Wachstum unterstützt. Tatsächlich, wie Sharad Patel vom britischen Beratungsunternehmen PA Consulting Group betont, verschieben erfahrene Unternehmen ihre Daten in halbstrukturierte und sogar strukturierte Formate.

Strukturierte Daten lassen sich leichter verwalten, analysieren und sichern. Anwendungen von speziellen Data-Mining-Tools bis hin zu Salesforce.com helfen Unternehmen, unstrukturierte Daten in strukturierte Formate zu überführen oder zumindest an strukturierte Datensätze anzuhängen.

Definition von strukturierten Daten

Strukturierte Daten sind Daten in einem festen Format, Datenmodell oder „Schema“. Diese Elemente sind dann von einer Anwendung – wie zum Beispiel einer Datenbank – für den Abruf oder das Reporting adressierbar.

Strukturierte Daten sind so konzipiert, dass sie zur weiteren Analyse an eine andere Anwendung, zum Beispiel ein Business-Intelligence-Paket, übergeben werden können.

Geschäftssysteme wie Enterprise Resource Planning (ERP), Personalmanagement und Vertriebsautomatisierung basieren auf strukturierten Daten, entweder in einer integrierten Datenbank oder durch die Verknüpfung mit einer externen relationalen Datenbankanwendung. Die Plattformen sind unter anderem Oracle, IBM DB2 und die verschiedenen Varianten von SQL-Datenbankmanagementsystemen.

Strukturierte Daten werden durch Felder definiert, die jeweils einen Datensatz oder eine Datei enthalten. Metadaten helfen Anwendungen und Menschen, die Informationen in diesen Dateien oder Datensätzen zu indizieren und zu organisieren.

Durch die Zunahme der Metadaten und der Tools, mit denen Metadaten analysiert werden können, verwischen die Grenzen zwischen strukturierten und unstrukturierten Daten.

Das Wachstum dieser Metadaten- und Metadatenanalysewerkzeuge verwischt die Grenzen zwischen strukturierten und unstrukturierten Daten. So wird zum Beispiel mit den Bildern, die mit einer digitalen Kamera oder einem Smartphone aufgenommen werden, ein Metadatensatz gespeichert (die so genannten EXIF-Daten). Diese Metadaten am unstrukturierten Datensatz „Bild“  enthalten Informationen, die Mensch und Maschine lesen können, zum Beispiel die GPS-Koordinaten des Standorts, an dem das Bild aufgenommen worden ist, und die technischen Daten und Einstellungen der Kamera.

Unternehmen können diese strukturierten (Meta-) Datensätze nutzen, um beispielsweise Informationen aus Überwachungs- oder Liefersystemen zu extrahieren und leistungsstarke Analysen der Metadaten allein durchzuführen, ohne die tatsächlichen Bilddaten der Datei einsehen zu müssen. Das Wachstum der Objektspeicherung, die sich besonders für den Umgang mit Metadaten eignet, hat auch die Lücke zwischen strukturierten und unstrukturierten Daten verringert.

Einige Experten beschreiben Daten in Tabellenkalkulationsprogrammen als strukturierte Daten, während andere argumentieren, dass es kein festes Datenschema für den Wert einer Zelle gibt. Genauer betrachtet sind Daten aus Tabellenkalkulationen also semi-strukturierte Daten.

XML-Dateien sind strukturiert und werden häufig zum Transport von Metadaten verwendet. Entwickler können auch strukturierte Daten zu Webseiten hinzufügen, um Suchmaschinen zu unterstützen. Google zeigt dazu ein Beispiel mit einem JSON-Skript, mit dem der Suchmaschine mitgeteilt werden kann, dass eine Seite ein Rezept enthält.

Datenmodelle ändern

Der enorme – und oft ungenutzte – wirtschaftliche Wert von Unternehmensinformationen veranlasst die Anwenderunternehmen, über die Art und Weise ihrer Datenhaltung nachzudenken.

So besteht ein Trend darin, unstrukturierte Daten in strukturierte Umgebungen zu verschieben oder Metadaten stärker zu nutzen. In einem anderen Trend konzentrieren sich die Firmen auf die Analyse unstrukturierter Daten. Die beiden Ansätze haben unterschiedliche Auswirkungen auf die IT-Infrastruktur. Die Verwaltung strukturierter Daten erfordert in jedem Falls ein gerüttelt Maß an Fachwissen.

„Wenn Sie sich mit strukturierten Daten beschäftigen, werden Sie schnell bemerken, dass diese Datensätze von Experten für einen bestimmten Zweck modelliert worden sind. Das heißt zum Beispiel, dass die Daten einen bestimmten Datentyp repräsentieren – zum Beispiel die Kontodaten eines Kunden oder ein elektronisches Überweisungsformat“, sagt Nick Jewell, Direktor des Data Science Unternehmens Alteryx: „Ein Datensatz kann aber auch so strukturiert sein, dass er die Verwendung der Daten widerspiegelt, wie zum Beispiel die Verarbeitung der Transaktion eines Kunden.“

Die Effizienz von Datenbanken und strukturierten Datenverarbeitungswerkzeugen, gepaart mit der Vielzahl von Anwendungen, die darauf laufen, bedeutet, dass weitere Daten in strukturierte Formate übertragen werden.

In-Memory-Datenbanktechnologien wie Hana von SAP basieren auf strukturierten Daten. Unternehmen nutzen In-Memory-Systeme für die Echtzeit- oder echtzeitnahe Datenverarbeitung. Derzeit können unstrukturierte Datensysteme die Leistung von In-Memory-Datenbanken nicht erreichen.

Der Nachteil von strukturierten Datenmodellen besteht darin, dass Experten diese erstellen müssen. Analytik- und Speicherexperten wünschen sich eine stärkere Automatisierung, um ihnen bei der Formatierung und Verwaltung von Daten zu helfen. Reichhaltigere Metadaten und intelligente Systeme, die unstrukturierte Daten, möglicherweise unter Verwendung von KI, verarbeiten können, sind Alternativen zu einer Investition in ein strukturiertes Schema.

Speicheranforderungen

Auch beim Storage-Management wird die Automatisierung immer wichtiger. Julia Palmer, Research Director beim Marktforschungsunternehmen Gartner, zufolge wollen Unternehmen die Datenverwaltung und das Management der zugrunde liegenden Speicherhardware vereinfachen: „Auch wenn die Datenmenge [im Vergleich zu unstrukturierten Daten] nicht riesig ist, wollen sie eine Architektur, die einfacher zu bedienen ist und Experten benötigt“, sagt sie. Unternehmenssysteme sollten in der Lage sein, Tiering, Kompression und Deduplizierung auf Storage-Array-Ebene zu bewältigen.

Der Trend zur Automatisierung wiederum wird durch den Wechsel zu Flash- und Solid-State-Storage für strukturierte Daten getrieben. Keine andere Technologie kann leistungsmäßig mit Solid State konkurrieren. Zentralen Unternehmens- und Analyseapplikationen für strukturierte Daten sind am besten in der Lage, die Leistung dieser Speichersysteme in Werte zu verwandeln.

„Wenn Sie sich mit strukturierten Daten beschäftigen, werden Sie schnell bemerken, dass diese Datensätze von Experten für einen bestimmten Zweck modelliert worden sind.“
Nick JewellAlteryx

Gartner erwartet, dass sich der Markt für Speichersysteme für strukturierte Daten in Richtung All-Flash entwickeln wird. Die höheren Kosten von Solid-State-Systemen zwingen Unternehmen jedoch, sich mit deren Automatisierung zu befassen. Nur dadurch lässt sich sicherstellen, dass der Speicherplatz effizient genutzt wird. Die Fähigkeit, Daten automatisch von festplattenbasierte Arrays, Cloud-basierte Backups oder sogar Bändern herüberzuziehen, wird zu den essentiellen Funktionen von Enterprise-Storage-Systemen gehören.

Gartner weist auch darauf hin, dass die Anwender Storage-Tiering, Archivierung und andere Dienste ohne zusätzliche Hardware oder Gateways betreiben werden wollen. Der Trend geht hin zu weniger Anbietern, auch wenn die IT-Abteilungen sich mit hybrider Speicherung und Integration in die Cloud befassen.

Derzeit können Cloud-Systeme die Leistung von Storage-Area-Network- oder Direct-Attached-Storage-Systemen nicht bieten, so dass die Möglichkeit, Daten auf Abruf zu und von kostengünstigem Cloud Storage zu verschieben, für Unternehmen attraktiv ist, vorausgesetzt, sie können sie automatisieren. Die Alternative besteht natürlich darin, Daten in der Cloud zu verarbeiten und zu speichern.

Anbieterlandschaft

Die Anbieterlandschaft für die strukturierte Datenhaltung besteht im Wesentlichen aus den Anbietern herkömmlicher DAS-Systeme. Anbieter wie Dell EMC, HPE, Hitachi Vantara, NetApp und IBM sind auf Storage-Systeme für Hochleistungsanwendungen spezialisiert. Die Mainstream-Speicheranbieter bieten nun neben der Cloud-Konnektivität auch All-Flash-Systeme, festplattenbasierte Systeme oder Kombinationen aus beidem an.

Zu den Anbietern reiner Flash-Only-Systeme gehören Pure Storage und Violin Systems. Diese beiden Mitspieler im Speichermarkt haben mit Systemen, bei denen die Leistung entscheidend ist, an Bedeutung gewonnen.

IT-Verantwortliche, in deren Ressort die Enterprise-Storage-Systeme fallen und die auf Zukunftssicherheit ihrer Systeme Wert legen, sollten sich auch die InfoSight-Abteilung von HPE – zugeschnitten auf Datenspeicherung und -analyse – sowie die Lösungen für Software-Defined-Speicheransatz von Nutanix ansehen.

Nächste Schritte

Im Vergleich: So unterscheiden sich strukturierte und unstrukturierte Daten

So lagern Sie strukturierte Daten richtig aus

Tipps zu unstrukturierten Daten und ihren Storage-Anforderungen

Erfahren Sie mehr über Object Storage