Definition

Halbstrukturierte Daten (Semistrukturierte Daten)

Bei halbstrukturierten oder semistrukturierten Daten handelt es sich um Daten, die nicht in einem spezialisierten Repository (Verzeichnis), wie zum Beispiel einer Datenbank, organisiert wurden, aber über zugehörige Informationen, wie zum Beispiel Metadaten, verfügen, die sie für die Verarbeitung besser geeignet machen als Rohdaten.

Der Unterschied zwischen strukturierten, unstrukturierten und halbstrukturierten Daten ist:

Unstrukturierte Daten sind nicht in ein Format gebracht worden, das den Zugriff und die Verarbeitung erleichtert. In der Realität sind nur sehr wenige Daten komplett unstrukturiert. Selbst Dinge, die oft als unstrukturierte Daten angesehen werden, wie Dokumente und Bilder, sind bis zu einem gewissen Grad strukturiert.

unstrukturierte Daten
Abbildung 1: Beispiel für unstrukturierte Datentypen.

Strukturierte Daten sind im Grunde das Gegenteil von unstrukturierten Daten: Sie wurden umformatiert und ihre Elemente in einer Datenstruktur organisiert, sodass Elemente in verschiedenen Kombinationen adressiert, organisiert und angesprochen werden können, um die Informationen besser zu nutzen.

Semistrukturierte oder halbstrukturierte Daten liegen zwischen diesen beiden. Sie sind nicht auf eine komplexe Art und Weise organisiert, die einen ausgefeilten Zugriff und eine Analyse ermöglicht; sie können jedoch mit Informationen verknüpft sein, wie zum Beispiel Metadaten-Tags, die eine Adressierung der enthaltenen Elemente ermöglichen.

Beispiel für halbstrukturierten Daten

Word-Dokumente werden im Allgemeinen als unstrukturierte Daten betrachtet. Man kann jedoch Metadaten-Tags hinzufügen, die den Inhalt des Dokuments repräsentieren und es einfacher machen, dieses Dokument zu finden, wenn Menschen nach diesen Begriffen suchen – die Daten sind nun halbstrukturiert. Dennoch fehlt dem Dokument immer noch die komplexe Organisation einer Datenbank, so dass es sich nicht um vollständig strukturierte Daten handelt.

In der Regel gibt es erhebliche Überschneidungen zwischen den Grenzen der drei Kategorien, die manchmal gemeinsam als Datenkontinuum bezeichnet werden.

Diese Definition wurde zuletzt im Juni 2021 aktualisiert

Erfahren Sie mehr über Business-Software