JRB - stock.adobe.com
Unstrukturierte Daten und ihre Storage-Anforderungen
Es gibt Unmengen an unstrukturierte Daten, aber oft sind sie mit Metadaten teilstrukturiert. Erfahren Sie hier alles Wichtige über unstrukturierte Daten und deren Speicherung.
Schätzungen gehen davon aus, dass mehr als 80 Prozent der Geschäftsinformationen unstrukturierte Daten sind. Das könnte Probleme für alle verursachen, die diese Daten verwalten, organisieren und sicher aufbewahren müssen.
Eine Umfrage, die von Igneous, einem unstrukturierten Datenmanagementanbieter, in Auftrag gegeben wurde, ergab, dass 82 Prozent der Befragten eine Milliarde oder mehr Dateien und Objekte verwalten. Tatsächlich verwalten 59 Prozent der Befragten mehr als 10 Milliarden Dateien.
Unstrukturierte Daten sind im Allgemeinen alle Daten und Informationen, die kein vordefiniertes Datenmodell haben. In der Praxis bedeutet das für die IT, dass diese Informationen außerhalb einer relationalen Datenbank gespeichert sind oder außerhalb einer Anwendungsumgebung wie einem ERP- oder HR-System, das sich auf einer Datenbank befindet.
Aber eine wachsende Menge an Informationen lässt sich am besten als teilstrukturiert bezeichnen. Obwohl diese Daten nicht in einer Datenbank gespeichert sind, gibt es dort eine gewisse Struktur, meist in den Metadaten.
Und da die Technologie, einschließlich der Objektspeicherung, reichhaltigere Metadaten ermöglicht, könnten die Grenzen zwischen strukturierten und unstrukturierten Informationen weiter verschwimmen.
Unstrukturierte Daten im Kontext
Geschäftsinformationen werden größtenteils von Systemen oder Personen erzeugt. Daten aus Systemen werden höchstwahrscheinlich strukturiert. Ein typisches Beispiel ist eine von einem Verkaufssystem erstellte und in einer Datenbank gespeicherte Auftragsnummer.
Unstrukturierte Daten werden oft von Menschen erstellt. Eine E-Mail von einem Verkaufsteam, die die Bestellung bestätigt, wäre unstrukturiert, ebenso wie eine Social-Media-Nachricht oder eine Sprachnachricht, die sich über die verspätete Bestellung beschwert.
Ein Foto eines beschädigten Liefergegenstandes wäre oberflächlich gesehen auch unstrukturierte Daten – obwohl Metadaten aus den Kameradateien teilstrukturierte Informationen sind.
Daten können sich auch während ihres Lebenszyklus zwischen unstrukturiert und strukturiert bewegen. Ein Unternehmen, das eine Zunahme von Lieferreklamationen sieht, könnte Metadaten aus Kundenfotos mit Geo-Tracking-Informationen von Lieferfahrzeugen in einem Business-Intelligence-Tool kombinieren.
Obwohl die freie textbasierte Analyse – und sogar die Bildanalyse – immer leistungsfähiger wird, verwenden die meisten Textanalysetools eine Art Datenbankmaschine.
Strukturierte Daten umfassen in der Regel kleine Informationen, wie zum Beispiel den Wert eines einzelnen Datenbankeintrags, obwohl die Datenmengen insgesamt groß sein können.
Unstrukturierte Daten gibt es in einer viel größeren Bandbreite von Größen, von einigen Kilobyte für eine Nachricht bis hin zu potenziell Terabyte für unkomprimiertes Videomaterial.
Die Handhabung einer solchen Vielfalt von Datensätzen stellt für Speichermanager ein Problem dar. Es ist ein Grund, warum Unternehmen mehr Daten – oder zumindest Metadaten – in strukturierte Formate verschieben wollen.
Sharad Patel, eine Datenexpertin bei PA Consulting, sagt, dass Unternehmen von 80 Prozent oder 90 Prozent der unstrukturierten Daten weggehen wollen. Ein von ihr genannter Kunde hat das Ziel, unstrukturierte Daten auf 50 Prozent zu reduzieren.
Gründe dafür sind unter anderem mehr Sicherheit und Compliance sowie eine verbesserte Systemleistung. Der Aufbau von mehr Kontrolle über Daten wird immer wichtiger, da Unternehmen immer größere Mengen an Informationen sammeln und speichern.
Teilstrukturierte Maschinendaten
Informations- und Speichermanager müssen nicht nur mit mehr Daten umgehen, sondern auch mit einer größeren Bandbreite an Datentypen, sowohl in zentralen als auch in Endanwendersystemen.
Die IT-Abteilung hat sich weit über Tabellenkalkulationen und Textverarbeitungsdateien auf dem Desktop und einigen gemeinsamen Datenbanken hinaus zu einer viel breiteren Palette von Informationssets entwickelt. Audio, Bilddateien und Videos arbeiten heute neben Informationen aus dem Web, zunehmend auch Informationen von angeschlossenen Geräten und dem Internet der Dinge (IoT).
Die Daten der Sensoren und angeschlossenen Geräte sind im Wesentlichen semi-strukturiert. Ob es sich nun um einen Temperatursensor in einer Fabrik oder einen Stream einer Überwachungskamera handelt, die Rohdaten sind nur bedingt nutzbar. Metadaten, wie Zeit und Ort, sind für die manuelle oder automatisierte Analyse der Rohdaten unerlässlich.
Ohne Metadaten ist es schwierig und vielleicht sogar unmöglich, fundierte Entscheidungen zu treffen. Es sind auch die Metadaten, die es Analysten ermöglichen, Informationen zu kategorisieren und zur Verarbeitung in eine strukturierte Umgebung, wie beispielsweise eine Datenbank, zu verschieben.
Die Abfrage der Daten, sei es für einen einfachen historischen Bericht oder eine anspruchsvolle prädiktive Analyse, ist ohne einen Rahmen von Metadaten nicht möglich.
Branchenbeobachter erwarten ein schnelles Wachstum der IoT-Datenmengen: Gartner geht davon aus, dass bis 2020 20 Milliarden IoT-Geräte angeschlossen sein werden. Eine weitere Schätzung von IDC geht davon aus, dass die IoT-Daten bis 2025 163 Zettabyte erreichen werden.
Die Notwendigkeit der Erfassung von Metadaten hat jedoch einen größeren Einfluss auf die Datenverwaltung und -speicherung im Unternehmen. Bis zu 5,2 Zettabyte an Daten müssen analysiert werden, und vielleicht werden bis 2025 26 Prozent der Daten in der Public Cloud sein, prognostiziert IDC.
Speicherauswahl
Cloud Storage ist eine attraktive Option für zumindest einige Arten von unstrukturierten Daten. Die Cloud eignet sich gut für Informationen, auf die nur selten zugegriffen werden muss. Eine Art von Daten, die bereits weitgehend auf Public Cloud Storage migriert wurden, ist Archivmaterial.
Unternehmen, die langfristige Aufzeichnungen führen müssen, können die niedrigen Kosten der Cloud pro Gigabyte nutzen und zahlen nur Abrufgebühren für Daten, die sie benötigen, oder in einem Szenario für Disaster Recovery oder forensische Untersuchungen.
Die Langzeitdatenspeicherung ist auch in der Lage, die mit der Nutzung der Public Cloud verbundenen Leistungsverzögerungen zu bewältigen. Systeme wie Microsoft SharePoint – ein gemeinsames Repository für unstrukturierte Geschäftsinformationen – sind von einer Latenz weniger betroffen als ein Transaktionssystem wie ERP, das auf relationaler Datenbank basiert. Für teilstrukturierte Daten besticht die Cloud durch den Einsatz von Objektspeichern.
Bei teilstrukturierten Daten kann der Geschäftswert sowohl in den Metadaten als auch in den Daten selbst liegen. Da Objektspeicher Daten – und Metadaten – über mehrere Standorte verteilen können, eröffnen sie die Aussicht auf eine schnelle, lokalisierte Suche nach Metadaten und erzielen gleichzeitig die Größenvorteile der Cloud für Rohdaten.
Objektspeicherung gewinnt an Bedeutung
Je größer der Datensatz, desto attraktiver das Objektmodell, und als Ergebnis gewinnt die Objektspeicherung in so unterschiedlichen Branchen wie Medien und Unterhaltung, Life Sciences sowie Öl und Gas an Bedeutung.
Laut Boris Evelson und Elizabeth Cullen, Analysten von Forrester Research, können Cloud-basierte Textanalyse-Tools innerhalb von Minuten einsatzbereit sein, auch wenn es etwas länger dauert, Algorithmen zu trainieren, um produktiv zu werden. Da Unternehmen nun Analysen in der Cloud durchführen können, spricht vieles dafür, Daten auch in der Cloud zu halten.
Leistungsanforderungen werden jedoch dazu führen, dass einige unstrukturierte und halbstrukturierte Datensätze vor Ort gehalten werden. In den letzten zehn Jahren haben die Storage-Anbieter die Leistung von Network Attached Storage kontinuierlich verbessert – immer noch der Einstieg in die Architektur für lokale, unstrukturierte Daten.
Clustered NAS kann eine Leistung bieten, die der von Direct Attached oder SAN Storage nahe kommt. Daten, die eine schnelle Verarbeitung erfordern, wie zum Beispiel Echtzeitanalysen oder kundenorientierte Systeme, können auf dem NAS unterstützt werden.
Und CIOs bevorzugen wahrscheinlich NAS oder die Speicherung von Objekten vor Ort, wo Datensicherheit und Compliance-Aspekte die Cloud ausschließen. In diesem Fall können die politischen Anforderungen technische oder kostenmäßige Überlegungen durchaus übertrumpfen.
Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!