Definition

Unstrukturierte Daten

Bei unstrukturierten Daten handelt es sich um Informationen in vielen verschiedenen Formen, die nicht den herkömmlichen Datenmodellen entsprechen und sich daher nur schwer in einer herkömmlichen relationalen Datenbank speichern und verwalten lassen.

Die überwiegende Mehrheit neuer Daten, die heute generiert werden, ist unstrukturiert, was zur Entstehung neuer Plattformen und Tools geführt hat, die in der Lage sind, diese zu verwalten und zu analysieren. Diese Tools ermöglichen es Unternehmen, unstrukturierte Daten leichter für Business Intelligence (BI) und Analyseanwendungen zu nutzen.

Unstrukturierte Daten haben eine interne Struktur, enthalten aber kein vorgegebenes Datenmodell oder Schema. Sie können textuell oder nicht textuell sein. Sie können von Menschen oder von Maschinen generiert werden.

Eine der häufigsten Arten von unstrukturierten Daten ist Text. Unstrukturierter Text wird in einer Vielzahl von Formen generiert und gesammelt, zum Beispiel in Word-Dokumenten, E-Mail-Nachrichten, PowerPoint-Präsentationen, Umfrageantworten, Transkripten von Call-Center-Interaktionen und Beiträgen in Blogs und sozialen Medien.

Andere Arten von unstrukturierten Daten sind Bilder, Audio- und Videodateien. Maschinendaten sind eine weitere Kategorie unstrukturierter Daten, die in vielen Unternehmen rasch zunimmt. So liefern beispielsweise Protokolldateien von Webseiten, Servern, Netzwerken und Anwendungen - insbesondere von mobilen Anwendungen - eine Fülle von Aktivitäts- und Leistungsdaten. Darüber hinaus erfassen und analysieren Unternehmen zunehmend Daten von Sensoren in Produktionsanlagen und anderen mit dem Internet der Dinge verbundenen Geräten.

Lesen Sie mehr über die Grundlagen unstrukturierter Daten in Unstrukturierte Daten und ihre Storage-Anforderungen.

Strukturierte und unstrukturierte Daten im Vergleich

Zu den Hauptunterschieden zwischen strukturierten und unstrukturierten Daten gehören die Art der Analyse, das verwendete Schema, die Art des Formats und die Art und Weise, wie sie gespeichert werden. Traditionelle strukturierte Daten, wie die Transaktionsdaten in Finanzsystemen und anderen Geschäftsanwendungen, entsprechen einem starren Format, um die Konsistenz bei der Verarbeitung und Analyse zu gewährleisten. Unstrukturierte Datensätze hingegen können in uneinheitlichen Formaten gespeichert werden.

Strukturierte Daten werden in einer relationalen Datenbank (RDBMS) gespeichert, die den Zugriff auf Datenpunkte ermöglicht, die über Spalten und Tabellen miteinander verbunden sind. So werden beispielsweise Kundeninformationen, die in einer Tabellenkalkulation gespeichert und nach Telefonnummern, Adressen oder anderen Kriterien kategorisiert sind, als strukturierte Daten betrachtet.

Andere Beispiele für strukturierte Datensysteme sind Reisebuchungssysteme, Bestandsregister und Buchhaltungsüberweisungen.

Da diese Informationen kategorisiert sind, können sie sowohl von Menschen als auch von Algorithmen bei der Datenanalyse besser durchsucht werden. Datenbankadministratoren verwenden häufig die strukturierte Abfragesprache (Structured Query Language, SQL), die effektive Suchabfragen von strukturierten Daten in relationalen Datenbankenermöglicht.

Häufig können strukturierte Daten und unstrukturierte Daten gemeinsam verwendet werden. So kann zum Beispiel eine strukturierte Tabelle mit Kundendaten in ein unstrukturiertes CRM-System (Customer Relationship Management) importiert werden.

Was sind semistrukturierte Daten?

Semistrukturierte Daten sind weitgehend unstrukturiert, verwenden aber interne Tags und Markierungen, die verschiedene Datenelemente voneinander trennen und differenzieren und sie in Paaren und Hierarchien anordnen.

E-Mail ist ein gängiges Beispiel. Die in einer E-Mail verwendeten Metadaten ermöglichen Analyse-Tools die Klassifizierung und einfache Suche nach Schlüsselwörtern. Sensordaten, Daten aus sozialen Medien, Auszeichnungssprachen wie XML und NoSQL-Datenbanken sind Beispiele für unstrukturierte Daten, die sich im Hinblick auf eine bessere Durchsuchbarkeit weiterentwickeln und als semistrukturierte Daten betrachtet werden können.

Wofür werden unstrukturierte Daten verwendet?

Aufgrund ihrer Beschaffenheit eignen sich unstrukturierte Daten nicht für die Transaktionsverarbeitungsanwendungen, die häufig mit strukturierten Daten arbeiten. Stattdessen werden sie hauptsächlich für BI und Analysen verwendet. Eine beliebte Anwendung ist die Kundenanalyse. Einzelhändler, Hersteller und andere Unternehmen analysieren unstrukturierte Daten, um die Kundenerfahrung zu verbessern und gezieltes Marketing zu ermöglichen. Sie führen auch Stimmungsanalysen durch, um die Kunden besser zu verstehen und ihre Einstellung zu Produkten, Kundendienst und Unternehmensmarken zu ermitteln.

Die vorausschauende Wartung ist ein neuer Anwendungsfall für unstrukturierte Daten. So können Hersteller beispielsweise Sensordaten analysieren, um Geräteausfälle zu erkennen, bevor sie in den Anlagen im Werk oder bei den fertigen Produkten auftreten. Auch Energieleitungen können mithilfe unstrukturierter Daten, die von IoT-Sensoren erfasst werden, überwacht und auf potenzielle Probleme überprüft werden.

Die Analyse von Protokolldaten aus IT-Systemen zeigt Nutzungstrends auf, identifiziert Kapazitätsbeschränkungen und identifiziert die Ursache von Anwendungsfehlern, Systemabstürzen, Leistungsengpässen und anderen Problemen. Die Analyse unstrukturierter Daten hilft auch bei der Einhaltung gesetzlicher Vorschriften, insbesondere wenn es darum geht, den Inhalt von Unternehmensdokumenten und -aufzeichnungen zu verstehen.

Techniken und Plattformen für unstrukturierte Daten

In der Vergangenheit waren unstrukturierte Daten oft in siloartigen Dokumentenmanagementsystemen, einzelnen Produktionsgeräten und dergleichen eingeschlossen, was sie zu so genannten dunklen Daten (dark data) machte, die für Analysen nicht zur Verfügung standen.

Doch mit der Entwicklung von Big-Data-Plattformen, vor allem Hadoop-Clustern, NoSQL-Datenbanken und dem Amazon Simple Storage Service (S3), änderte sich das. Sie bieten die erforderliche Infrastruktur für die Verarbeitung, Speicherung und Verwaltung großer Mengen unstrukturierter Daten, ohne dass ein einheitliches Datenmodell und ein einziges Datenbankschema erforderlich sind.

Analyse-Tools für unstrukturierte Daten

Für die Analyse unstrukturierter Daten in Big-Data-Umgebungen wird eine Vielzahl von Analysetechniken und -Tools eingesetzt. Andere Techniken, die bei der Analyse unstrukturierter Daten eine Rolle spielen, sind Data Mining,maschinelles Lernen und prädiktive Analysen.

Textanalyse-Tools suchen nach Mustern, Schlüsselwörtern und Stimmungen in Textdaten. Auf einer fortgeschrittenen Ebene ist die Technologie zur Verarbeitung natürlicher Sprache eine Form der künstlichen Intelligenz, die versucht, Bedeutung und Kontext in Texten und menschlicher Sprache zu verstehen, zunehmend mit Hilfe von Deep-Learning-Algorithmen, die neuronale Netze zur Datenanalyse verwenden.

Neuere Tools können alle Datentypen aggregieren, analysieren und abfragen, um einen besseren Einblick in die Unternehmensdaten und eine bessere Entscheidungsfindung zu ermöglichen. Beispiele hierfür sind die folgenden:

Diese Definition wurde zuletzt im Februar 2022 aktualisiert

Erfahren Sie mehr über Datenverwaltung