Metadaten
Was sind Metadaten?
Metadaten werden häufig als Daten beschrieben, die andere Daten charakterisieren. Sie stellen strukturierte Referenzdaten dar, die dabei helfen, die Eigenschaften der beschriebenen Informationen zu ordnen und zu identifizieren. In seinem Werk Zen and the Art of Metadata Maintenance vergleicht John W. Warren Metadaten metaphorisch mit einem Universum und einer DNA.
In der Informationstechnologie wird die Vorsilbe Meta oft verwendet, um eine zugrundeliegende Definition oder Beschreibung zu kennzeichnen. Metadaten fassen wesentliche Informationen über Daten zusammen und erleichtern dadurch das Auffinden, die Nutzung und die Wiederverwendung spezifischer Dateninstanzen.
Bei Dokumentdateien zählen beispielsweise der Autor, das Erstellungsdatum, das Änderungsdatum und die Dateigröße zu den grundlegenden Metadaten. Die Möglichkeit, nach einem oder mehreren dieser Metadatenelemente zu suchen, vereinfacht die Auffindung eines bestimmten Dokuments erheblich.
Metadaten finden nicht nur bei Dokumentdateien Anwendung, sondern auch bei Computerdateien, Bildern, relationalen Datenbanken, Tabellenkalkulationen, Videos, Audiodateien und Webseiten. Besonders bei Webseiten spielen Metadaten eine wichtige Rolle, da sie Beschreibungen des Seiteninhalts sowie damit verbundene Schlüsselwörter enthalten. Diese Metadaten werden von Suchmaschinen häufig in den Suchergebnissen angezeigt, wodurch ihre Genauigkeit und ihr Detailgrad beeinflussen können, ob ein Nutzer sich für den Besuch einer Website entscheidet. Diese Informationen werden üblicherweise in Form von Meta-Tags ausgedrückt.
Suchmaschinen analysieren Meta-Tags, um die Relevanz einer Webseite zu bestimmen. Bis zum Ende der 1990er Jahre galten Meta-Tags als entscheidender Faktor für die Positionierung in Suchergebnissen. Mit dem Aufkommen der Suchmaschinenoptimierung (SEO) gegen Ende der 1990er Jahre begannen viele Websites jedoch, ihre Metadaten mit Keywords zu überladen, um Suchmaschinen zu manipulieren und ihre Websites relevanter erscheinen zu lassen als andere.
Infolgedessen haben Suchmaschinen ihre Abhängigkeit von Meta-Tags reduziert, obwohl diese bei der Indexierung von Seiten nach wie vor berücksichtigt werden. Viele Suchmaschinen bemühen sich aktiv darum, die Manipulation ihrer Algorithmen durch Webseitenbetreiber zu verhindern, indem sie ihre Ranking-Kriterien regelmäßig anpassen. Google ist besonders dafür bekannt, seine Ranking-Algorithmen häufig zu modifizieren.
Metadaten können sowohl manuell als auch durch automatisierte Informationsverarbeitung erstellt werden. Die manuelle Methode ist in der Regel präziser, da der Benutzer alle Informationen eingeben kann, die er für relevant hält oder die zur Beschreibung der Datei beitragen. Die automatische Erstellung von Metadaten ist meist eher rudimentär und liefert normalerweise nur grundlegende Informationen wie Dateigröße, Dateierweiterung, Erstellungsdatum und Ersteller der Datei.
Einsatzmöglichkeiten für Metadaten
Metadaten werden jedes Mal erstellt, wenn ein Dokument, eine Datei oder ein anderer Informationsbestand geändert wird, einschließlich seiner Löschung. Genaue Metadaten können hilfreich sein, um die Lebensdauer vorhandener Daten zu verlängern, indem sie Benutzern helfen, neue Wege zu ihrer Anwendung zu finden.
Metadaten organisieren ein Datenobjekt unter Verwendung von Begriffen, die mit diesem bestimmten Objekt verknüpft sind. Außerdem können damit unähnliche Objekte identifiziert und mit ähnlichen Objekten gepaart werden, um die Nutzung von Datenbeständen zu optimieren. Wie bereits erwähnt, bestimmen Suchmaschinen und Browser, welcher Webinhalt angezeigt werden soll, indem sie die einem HTML-Dokument zugeordneten Metadaten-Tags interpretieren.
Die Sprache der Metadaten ist so geschrieben, dass sie sowohl für Computersysteme als auch für Menschen verständlich ist, ein Standardisierungsgrad, der zu einer besseren Interoperabilität und Integration zwischen unterschiedlichen Anwendungen und Informationssystemen beiträgt.
Unternehmen in den Bereichen Digital Publishing, Engineering, Finanzdienstleistungen, Gesundheitswesen und Fertigung verwenden Metadaten, um zur Verbesserung von Produkten oder Upgrade-Prozessen zu gewinnen. Zum Beispiel automatisieren Streaming-Content-Anbieter die Verwaltung von Metadaten zu geistigem Eigentum, sodass diese in einer Reihe von Anwendungen gespeichert werden können, während die Urheberrechtsinhaber geschützt und gleichzeitig Musik und Videos für authentifizierte Benutzer zugänglich gemacht werden.
Die Reife der KI-Technologien erleichtert die traditionelle Verwaltung von Metadaten etwas, indem zuvor manuelle Prozesse zum Katalogisieren und Markieren von Informationsressourcen automatisiert werden.
Kurze Historie und Ursprünge der Metadaten
Jack E. Myers, Gründer von Metadata Information Partners (jetzt The Metadata Co.), behauptet, den Begriff 1969 geprägt zu haben. Myers meldete 1986 eine Marke für das Wort metadata ohne Bindestrich an. Trotzdem finden sich Hinweise auf den Begriff in wissenschaftliche Arbeiten, die Myers' Behauptung vorausgehen.
In einer 1967 veröffentlichten wissenschaftlichen Arbeit beschrieben die Professoren des Massachusetts Institute of Technology, David Griffel und Stuart McIntosh, Metadaten als „eine Aufzeichnung … der Datensätze“, die entsteht, wenn bibliografische Daten zu einem Thema gesammelt werden. Die Forscher kamen zu dem Schluss, dass ein "metalinguistischer Ansatz" oder "Metasprache" erforderlich ist, damit ein Computersystem diese Daten und ihren Kontext mit anderen relevanten Datenelementen richtig interpretieren kann. Im Gegensatz zu Myers behandelten Griffel und McIntosh Meta als Präfix für Daten.
Im Jahr 1964 begann Philip R. Bagley mit der Arbeit an seiner Dissertation, in der er argumentierte, dass Bemühungen, zusammengesetzte Datenelemente herzustellen, letztendlich auf der Fähigkeit beruhen, sie mit einem zweiten und verwandten Datenelement zu assoziieren, das wir als Metadatenelement bezeichnen könnten. Obwohl seine Dissertation abgelehnt wurde, hat Bagley diese Arbeit einschließlich seines Verweises auf Metadaten, anschließend als Bericht im Rahmen eines Vertrags mit dem Air Force Office of Scientific Research im Januar 1969 veröffentlicht.
Metadatentypen und Beispiele
Metadaten werden je nach ihrer Funktion kategorisiert.
- Mit administrativen Metadaten können Administratoren Regeln und Einschränkungen für den Datenzugriff und die Benutzerberechtigungen festlegen. Sie liefern auch Informationen zu erforderlichen Wartungs- und Verwaltungsaufgaben an Datenressourcen. Verwaltungsmetadaten werden häufig im Rahmen der laufenden Forschung verwendet und umfassen Details wie Erstellungsdatum, Dateigröße und -typ sowie Archivierungsanforderungen.
- Beschreibende Metadaten identifizieren spezifische Merkmale eines Datenelements, wie zum Beispiel bibliografische Daten, Schlüsselwörter, Songtitel, Bandnummern und so weiter.
- Legale Metadaten enthalten Informationen zur Lizenzierungen wie Urheberrechte, Lizenzen und Tantiemen.
- Beibehaltungsmetadaten leiten die Platzierung eines Datenelements innerhalb eines hierarchischen Rahmens oder einer Sequenz.
- Prozessmetadaten beschreiben Verfahren zum Sammeln und Behandeln statistischer Daten. Statistische Metadaten ist ein anderer Begriff für Prozessmetadaten.
- Provenienzmetadaten, verfolgen die Karriere eines Datenelements, während es sich durch eine Organisation bewegt. Originaldokumente werden mit Metadaten kombiniert, um die Gültigkeit der Daten sicherzustellen oder Fehler in der Datenqualität zu korrigieren. Die Überprüfung der Provenienz ist eine gängige Praxis in der Data Governance.
- Referenzmetadaten beziehen sich auf Informationen, welche die Qualität statistischer Inhalte beschreiben.
- Statistische Metadaten beschreiben Daten, die es Benutzern ermöglichen, Statistiken aus Berichten, Umfragen und Kompendium richtig zu interpretieren und zu verwenden.
- Strukturelle Metadaten zeigen, wie verschiedene Elemente eines zusammengesetzten Datenobjekts zusammengesetzt werden. Strukturelle Metadaten werden häufig in digitalen Medieninhalten verwendet, um Beispiel um zu beschreiben, wie Seiten in einem Hörbuch zu einem Kapitel organisiert werden sollten und wie Kapitel zu Bänden organisiert werden sollten und so weiter. Der Begriff technische Metadaten ist ein Synonym, das meist im Zusammenhang mit digitalen Bibliotheken verwendet wird.
- Nutzungsmetadaten sind Daten, die bei jedem Zugriff eines Benutzers sortiert und analysiert werden. Anhand solcher Daten können Unternehmen Trends im Verhalten der Kunden erkennen und ihre Produkte und Dienstleistungen leichter an deren Bedürfnisse anpassen.
Effiziente Nutzung von Metadaten
Das beschleunigte Datenwachstum hat ein neues Interesse am potenziellen Geschäftswert von Metadaten geweckt. Es gibt eine Vielzahl von Datenstrukturen, die sowohl Chancen als auch Herausforderungen bergen.
Das Metadatenmanagement bietet einen organisatorischen Rahmen, um disparate Datensätze, die in verschiedenen Systemen gespeichert sind, zu harmonisieren. Dadurch lässt sich außerdem gewährleisten, dass Geschäfts- Betriebs- und technische Daten über Abteilungen hinweg in der gleichen Sprache beschrieben sind – und damit leichter vergleichbar.
Unternehmen implementieren Metadatenmanagement, um ältere Daten auszusortieren und eine Taxonomie zu entwickeln, anhand derer sie Daten nach ihrem Geschäftswert klassifizieren. Dazu gehört auch ein Katalog oder eine zentrale Datenbank, die als Metadaten-Repository, auch Data Dictionary genannt, dient.
Neben der Klassifizierung von Daten benötigen Unternehmen Metadatenmanagementstrategien, um die Datenanalyse zu verbessern, eine Data-#Governance-Richtlinie zu entwickeln und einen Audit-Trail für die Einhaltung gesetzlicher Vorschriften zu erstellen.
Im Kern geht es beim Metadatenmanagement darum, dass Menschen über eine webbasierte Benutzeroberfläche Attribute eines bestimmten Datenelements identifizieren können. Zu diesen Attributen gehören der Name der Datei, ihr Autor, eine Kunden-ID und so weiter. Die Person, die das Dokument anfordert, kann somit die verschiedenen Attribute der Daten, das Unternehmenssystem, in dem sie sich befinden, und die Gründe für die Erstellung dieser Attribute sehen und verstehen.
Normierung von Metadaten
Es wurden eine Reihe von Industriestandards entwickelt, um mehr Nutzen aus Metadaten zu ziehen. Diese Standards erreichen eine Konsistenz bei Sprache, Format, Rechtschreibung und anderen Attributen, die beim Beschreiben von Daten verwendet werden. Jeder Standard basiert auf einem spezifischen Schema, das eine übergreifende Struktur für alle seine Metadaten bietet.
Dublin Core ist ein weit verbreiteter allgemeiner Standard, der ursprünglich entwickelt wurde, um die Indexierung von physischen Bibliotheksausweiskatalogen zu unterstützen. Der Standard wurde inzwischen für webbasierte digitale Metadaten angepasst. Dublin Core beschreibt die Attribute von 15 Kerndatenelementen: Titel, Ersteller, Betreff, Beschreibung, Herausgeber, Mitwirkende, Datum, Typ, Format, Kennung, Quelle, Sprache, Beziehung, Abdeckung und Rechteverwaltung.
Ein ähnlicher bibliografischer Metadatenstandard ist Metadata Objects Description Schema, ein XML-basiertes Schema für Bibliotheken, das vom Network and Standards Development Office der U.S. Library of Congress als Nachfolger der in den 1960er Jahren entwickelten Standards für maschinenlesbare Kataloge hervorgebracht wurde.
Ein neuerer Standard, schema.org, basiert auf Open-Source-Software, die eine Sammlung von Metadaten-Schemata bereitstellt, die auf strukturierte Internetdaten, E-Mails und andere Formen digitaler Daten ausgerichtet sind.
Fachspezifische Metadatenstrukturen
Es wurde eine Reihe von Standard-Metadatenschemata entwickelt, um die einzigartigen Anforderungen bestimmter Disziplinen und Branchen zu erfüllen.
Kunst und Geisteswissenschaften:
- Die Text Encoding Initiative ist ein Konsortium von Institutionen, das Standards entwickelt, die Kodierungsmethoden für die Darstellung von maschinenlesbarem Text in digitaler Form spezifizieren.
- VRA Core, gemeinsam entwickelt von der Library of Congress und der Visual Resources Association, ist ein Datenstandard für die Beschreibung von Werken der visuellen Kultur sowie der sie dokumentierenden Bilder.
Kultur und Gesellschaft:
- Die Data Documentation Initiative standardisiert Beschreibungen von Daten, die in der Verhaltenswissenschaft und verwandten Disziplinen verwendet werden.
- Open Archives Language Community versucht basierend auf Dublin Core ein weltweites virtuelles Repository von Sprachressourcen zu entwickeln.
Naturwissenschaft:
- Darwin Core dient dem Austausch von Informationen über biologische Proben.
- Ecological Metadata Language ist ein lesbares XML-Markup-Format für den Austausch von Daten zu Geowissenschaften.