So organisieren Sie unterschiedliche Datentypen
Wir erklären Alternativen zu relationalen Datenbanken, die helfen, unstrukturierte Daten zu strukturieren und wertvolle Erkenntnisse zu gewinnen, indem sie halbstrukturiert werden.
Strukturierte gegenüber unstrukturierten Daten – das entspricht einer üblichen Methode, Informationen zu kategorisieren. Aber es ist nicht so einfach. Obwohl strukturierte Daten einfach zu verstehen sind, ist die Welt der unstrukturierten Daten und ihrer Umwandlung in leichter verständliche, nutz- und analysierbare Daten weniger einfach.
In diesem Artikel geht es um strukturierte und unstrukturierte Daten sowie darum, wie halb-strukturierte Daten etwas Ordnung in ein potenzielles Chaos bringen. Und es geht darum, welche Vorteile sie Unternehmen verschaffen, die eine Wertschöpfung anstreben aus den oft sehr großen Beständen an Dokumenten, Bildern, Tondateien, Videos oder Beiträgen in sozialen Medien.
Strukturierte Daten
Geschäftsinformationen werden meistens von Systemen oder Menschen erzeugt. Daten aus Systemen sind höchstwahrscheinlich strukturiert.
In seiner traditionellen Form ist dies vor allem bei Daten in relationalen Datenbanken der Fall, die SQL (Structured Query Language) verwenden. In diesen Datenbanken ist Struktur alles. Spalten, die Variablen darstellen, werden im Voraus eingerichtet und mit Datenzeilen gefüllt, in denen jeweils ein Wert an der Schnittstelle steht.
Es ist etwas, das wir uns alle vorstellen können. Es ist wie in einer einfachen Tabelle – obwohl man darüber diskutieren kann, ob eine Tabelle strukturierte Daten enthält. Doch komplexe Diagramme einer SQL-Datenbank enthalten die Entsprechung zahlreicher Tabellen (oder Verzeichnissen im Datenbank-Jargon), die miteinander in Beziehung stehen (daher „relational“) und die auf viele Arten gefiltert, verbunden und verarbeitet werden können, weil sie gemeinsame Elemente (Schlüssel) enthalten.
Trotz der Verbreitung von unstrukturierten Daten und dem Aufkommen von Formaten, die besser als halbstrukturiert bezeichnet werden sollten, sind strukturierte Datenbanken weiter wichtig und werden nicht so schnell verschwinden.
Sie sind leicht zu benutzen, von großen erweiterbaren Anwendungen bei Unternehmen bis hin zu Tools für Machine Learning (ML), können aber bei Zugang und Verwendung eingeschränkt sein. Einmal zu Beginn konfiguriert, können sie außerdem relativ mühsam zu unterhalten und zu ändern sein.
Die Masse an unstrukturierten Daten
Unstrukturierte Daten werden häufig von Personen erzeugt – obwohl nicht ausschließlich – und umfassen Mediendaten wie zum Beispiel Bilder und Tonaufnahmen, Einträge in sozialen Medien, Notizen von Mitarbeitern, Webseiten und E-Mails.
Unstrukturierte Daten halten sich an kein vordefiniertes Datenmodell, und Dateien und Objekte gibt es in vielen verschiedenen Größen, zum Beispiel von ein paar Kilobytes für einen Eintrag in sozialen Medien bis hin zu mehreren Terabytes für nicht komprimiertes Videomaterial.
Schätzungen gehen oft davon aus, dass die große Masse an Daten unstrukturiert ist – bis zu 80 oder 90 Prozent der Daten, die in Unternehmen vorgehalten werden.
Wenn wir von dieser Zahl ausgehen, dann stellt es große Herausforderungen für Unternehmen dar. Unstrukturierte Daten sind in größerem oder geringerem Ausmaß eben undefiniert und undurchsichtig für Such- und Klassifizierungsmaßnahmen.
Das bedeutet, dass Unternehmen oft nicht genau wissen, was tatsächlich vorhanden ist und das kann dann ein Sicherheits- und Compliance-Risiko darstellen. Und das bedeutet gleichzeitig, dass sie damit Gelegenheiten verpassen, diese Daten abzufragen und daraus Erkenntnisse und Wertschöpfung zu gewinnen.
Aber in der Tat kann man darüber diskutieren, ob alle Daten in Dateien wirklich unstrukturiert sein können. Die meisten unstrukturierten Daten, die man sich vorstellen kann – zum Beispiel Bild- und Tondateien – besitzen Kopfzeilen, die wertvolle Informationen über den Inhalt der Dateien liefern, die durchsucht und abgefragt werden können.
Und es ist mit wachsender Tendenz möglich, die Inhalte solcher Dateien mit Hilfe von Technologien wie zum Beispiel Künstliche Intelligenz (KI) und Machine Learning (ML) zu untersuchen und den Inhalt von Ton- und Videodateien in bestimmten Kategorien zu erfassen. YouTube geht zum Beispiel so vor, um sicherzustellen, dass das Copyright von Musik nicht beim Hochladen eines Videos verletzt wird. Solche Arten von Daten können mit neuen, auf Metadaten und Algorithmen basierenden Abfragen für den Fall ausgestattet werden, dass ein Unternehmen versuchen sollte, sie auszuwerten.
Die Revolution der halbstrukturierten Daten
Zur gleichen Zeit gibt es einen wachsenden Trend, um mehr halbstrukturierte Methoden für den Besitz von Daten zu verwenden. Einige Formen von halbstrukturierten Daten gibt es schon seit einiger Zeit, wie zum Beispiel CSV (Comma-Separated Values) und XML (Extensible Markup Language). Etwas später kam JSON hinzu. Alle diese Datenformen brachten so etwas wie ein Key-Value-Format für die Darstellung von Variablen und Werten mit sich.
Später kam eine ganze Bandbreite an Methoden hinzu, um Daten zu speichern und zu analysieren, die nicht durch eine vorgegebene Struktur definiert waren. Allgemein gesprochen kann man diese als NoSQL-Datenbanken zusammenfassen, aber es gibt auch eine Reihe von verschiedenen Typen innerhalb dieses Sammelbegriffs.
Zu ihnen gehören Datenbanken mit Spaltenspeichern wie zum Beispiel Hadoop und Cassandra, Dokumentenspeicher wie MongoDB und CouchDB, Speicher des Key-Value-Format wie zum Beispiel Riak sowie Graphdatenbanken zwischen verschiedenen Knoten, Object-Datenbanken und so weiter. Dies sind nur einige wenige Beispiele der verfügbaren Optionen.
Aber was alle Ansätze miteinander verbindet, ist das Fehlen der vordefinierten Struktur (schema-on-write), durch die SQL definiert ist. Mit diesen Non-SQL-Formaten können also potenziell alle Daten in jedem bestehenden Format, das heißt unstrukturiert, mit einer Struktur (schema-on-read) versehen werden, wenn die Daten angefragt werden. Es ist sogar möglich, Ton- und Videodateien in Datenbanken einzubinden, wie zum Beispiel MongoDB (obwohl es hier Einschränkungen gibt).
Der große Vorteil der Fähigkeit, unstrukturierte Daten in eine Form von einem halbstrukturierten Format einzubinden, besteht in einer Reihe von neuen Anwendungsfällen wie zum Beispiel Analytics zum Erkennen von Verbraucherverhalten, Markttrends und Stimmungen.
Man kann diskutieren, ob Analysen dieser Art von Daten tiefere Einblicke in das Verhalten von Anwendern oder Kunden geben. Eine SQL-Datenbank enthält Einträge zu Namen, Geburtsdatum oder Adresse, aber unstrukturierte Daten – über den Umweg, sie halbstrukturiert zu machen – können näher an das herankommen, was Verbraucher wirklich denken.
Es ist auch möglich, die unstrukturierten Daten zu strukturieren und sie zu nutzen. Ein Foto eines zugestellten Artikels wäre unstrukturierte Daten, aber Metadaten aus der Bilddatei könnten in einem Business-Intelligence-Tool mit Geotracking-Informationen von Lieferfahrzeugen kombiniert werden.