Definition

Data Mart

Ein Data Mart ist ein Datenspeicher, der einer bestimmten Gruppe von Wissensarbeitern (Knowledge Worker) dienen soll. Data Marts ermöglichen es Benutzern, Informationen für einzelne Abteilungen oder Themen abzurufen, wodurch die Reaktionszeit der Benutzer verbessert wird. Da Data Marts spezifische Daten katalogisieren, benötigen sie oft weniger Platz als Enterprise Data Warehouses, wodurch sie einfacher zu durchsuchen und kostengünstiger zu betreiben sind.

Arten von Data Marts

Es gibt drei grundlegende Arten von Data Marts:

  1. Ein abhängiger Data Mart bietet Zentralisierung und ermöglicht die Beschaffung der Daten eines Unternehmens aus einem einzigen Data Warehouse. Es gibt zwei Methoden zum Aufbau eines abhängigen Data Mart: eine, bei der Benutzer sowohl auf den Data Mart als auch auf das Data Warehouse zugreifen können, und eine, bei der der Benutzerzugriff nur auf den Data Mart beschränkt ist. Die zweite Methode kann zu dem führen, was umgangssprachlich als Datenschrottplatz bezeichnet wird, da alle Daten mit einer gemeinsamen Quelle beginnen, aber normalerweise verschrottet oder weggeworfen werden.
  2. Ein unabhängiger Data Mart wird ohne Verwendung eines zentralen Data Warehouse aufgebaut und ist ideal für kleinere Gruppen innerhalb eines Unternehmens oder einer Organisation. Unabhängige Data Marts haben keine Beziehungen zum Enterprise Data Warehouse oder zu anderen Data Marts. Die Daten werden aus einer internen oder externen Datenquelle eingegeben und ihre Analysen werden autonom durchgeführt. Da unabhängige Data Marts nicht mit Data Warehouses funktionieren oder interagieren, benötigen Benutzer einen konsistenten und zentralisierten Speicher für Unternehmensdaten, wie zum Beispiel eine relationale Datenbank, auf die mehrere Benutzer zugreifen können.
  3. Ein hybrider Data Mart kombiniert Eingaben aus Datenquellen, die nicht Teil des Data Warehouse sind, wie beispielsweise Betriebsdaten, und bietet Benutzern eine Ad-hoc-Integration. Hybride Data Marts erfordern eine minimale Datenbereinigung, unterstützen große Speicherstrukturen und sind flexibel. Hybride Data Marts eignen sich gut für Umgebungen mit mehreren Datenbanken und Organisationen, die eine schnelle Abwicklung erfordern.
Datenbanken, Data Warehouses, Data Lakes, Data Marts und Betriebsdatenspeichern
Abbildung 1: Die wichtigsten Unterschiede und Gemeinsamkeiten zwischen relationalen Datenbanken, Data Warehouses, Data Lakes, Data Marts und Betriebsdatenspeichern.

Data Mart versus Data Warehouse

Ein Data Mart ist im Wesentlichen ein vereinfachtes Data Warehouse. Während Data Warehouses Daten aus unterschiedlichen Quellen sammeln und verwalten, konzentrieren sich Data Marts nur auf ein einziges Thema und beziehen Daten nur aus wenigen Datenquellen. Aufgrund ihrer Größe eignen sich Enterprise Data Warehouses ideal für strategische Entscheidungen. Da Data Marts viel kleiner sind, sind sie ideal, um taktische Geschäftsentscheidungen zu treffen. Data Marts werden vor allem auf Abteilungsebene eingesetzt.

Data Warehouses bieten eine integrierte Umgebung und ein zusammenhängendes Bild des Unternehmens. Dies macht den Entwurfsprozess schwierig. Da Data Marts weniger kompliziert sind, ist ihr Designprozess einfacher. Data Warehouses sind groß und reichen von 100 Gigabyte (GB) bis zu einem oder mehreren Terabyte (TB). Data Marts sind viel kleiner, oft weniger als 100 GB.

Auch der Implementierungsprozess für Data Warehouses und Data Marts unterscheidet sich. Der Implementierungsprozess für Data Warehouses kann von Monaten auf Jahre ausgedehnt werden, während derselbe Prozess für Data Marts normalerweise auf nur wenige Monate beschränkt ist.

Data Mart versus Data Lake

Data Lakes und Data Marts werden oft verwechselt, aber sie sind keine austauschbaren Begriffe. Data Lakes bestehen aus undefinierten Rohdaten. Häufig steht der Zweck dieser Daten noch nicht fest. Data Marts speichern bestimmte Daten, deren Zweck von den Nutzern klar definiert wurde. In Data Marts wird kein Platz verschwendet, da alle Daten verarbeitet wurden und einem bestimmten Bedarf entsprechen. Data Lakes dienen als Repository für unstrukturierte, nicht aufbereitete Daten.

Data Lakes sind aufgrund ihrer Größe oft teurer als Data Marts und erfordern mehr Pflege. Da Speicherplatz ein kostbares Gut ist, enthalten Data Marts keine doppelten oder ungenutzten Daten, während Data Lakes redundante und ungenutzte Daten enthalten können – und dies häufig tun. Aus diesem Grund müssen Data Lakes stark überwacht werden, um sicherzustellen, dass sie nicht zu Datensümpfen werden.

Da Data Lakes keine festgelegte Struktur haben, sind sie leicht zugänglich und zu ändern. Data Marts sind konstruktionsbedingt stärker strukturiert, und es ist schwierig und oft kostspielig, sie zu manipulieren. Dies macht Data Marts sicherer.

Data Mart versus Datenbank

Datenbanken dienen oft als Grundlage für Data Warehouses, die wiederum als Grundlage für Data Marts dienen. Datenbanken können mehrere Data Marts umfassen, von denen jeder auf ein anderes Thema spezialisiert ist. Datenbanken werden als operative Systeme bezeichnet, da sie häufig zur Verarbeitung der täglichen Transaktionen eines Unternehmens verwendet werden; diese Datenbanken werden mit speziellen Managementsystemen gepflegt.

Cloud und virtuelle Data Marts

Datenbanken, Data Warehouses und Data Marts
Abbildung 2: Wie Datenbanken, Data Warehouses und Data Marts nebeneinander existieren.

Datenvirtualisierungssoftware kann verwendet werden, um virtuelle Data Marts zu erstellen, Daten aus unterschiedlichen Quellen zu beziehen und sie nach Bedarf mit anderen Daten zu kombinieren, um die Anforderungen bestimmter Geschäftsbenutzer zu erfüllen. Ein virtueller Data Mart bietet Wissensarbeitern Zugriff auf die benötigten Daten, verhindert gleichzeitig Datensilos und gibt dem Datenverwaltungsteam des Unternehmens eine gewisse Kontrolle über die Daten des Unternehmens während des gesamten Lebenszyklus.

Die Verwendung virtueller Data Marts kann verhindern, dass Benutzer versehentlich Daten duplizieren. Sie können auch die Zeit für die Erstellung von Data Marts verkürzen und somit die Kosten senken.

Ein anderer Ansatz zum Erstellen eines Data Mart sind Public-Cloud-Dienste. Dieser Data-Mart-as-a-Service-Ansatz ermöglicht es Unternehmen, die Anforderungen an die lokale Dateninfrastruktur des Datenmanagements zu eliminieren. Es bietet auch den Vorteil, dass es schnell skalieren und Daten von überall aus über das Web an Geschäftsbenutzer liefern kann, um sie in Business-Intelligence- und Datenvisualisierungsanwendungen zu verwenden.

Diese Definition wurde zuletzt im Dezember 2021 aktualisiert

Erfahren Sie mehr über Big Data