Dimension
Eine Dimension ist im Data Warehousing eine Sammlung von Referenzinformationen zu einem messbaren Ereignis. Die Ereignisse werden in diesem Kontext als "Fakten" bezeichnet. Dimensionen kategorisieren und beschreiben Data-Warehouse-Fakten und -Messwerte, so dass sie aussagekräftige Antworten auf Geschäftsfragen liefern. Sie bilden den zentralen Kern der dimensionalen Modellierung. Die dimensionale Modellierung ist auf die Auswertung von Daten ausgerichtet und unterstützt damit optimal Bedürfnisse von Report-Entwicklern und BI-Analysten.
Ein Data Warehouse organisiert beschreibende Attribute als Spalten in Dimensionstabellen. Zum Beispiel könnten die Attribute einer Kundendimension den Vor- und Nachnamen, das Geburtsdatum und das Geschlecht enthalten, während die Dimension einer Website die Attribute für den Namen der Seite und die URL umfasst.
Eine Dimensionstabelle besitzt eine Spalte mit dem Primärschlüssel, der jeden Dimensionsdatensatz (Zeile) eindeutig identifiziert. Unter Verwendung dieses Schlüssels wird die Dimensionstabelle mit einer Faktentabelle verknüpft. Daten in der Faktentabelle lassen sich durch verschiedene Kombinationen von Attributen filtern und gruppieren (sogenanntes Slice-and-Dice-Verfahren).
So lässt sich etwa ein Faktenelement „Login“ mit Dimensionen für Kunde, Website und Datum folgendermaßen abfragen: Anzahl der männlichen Nutzer zwischen 19 und 25 Jahren, die sich auf der Website beispielseite.com während der letzten Woche mehr als einmal angemeldet haben, gruppiert nach Tag.
Viele Dimensionen enthalten eine Hierarchie von Attributen, die Drill up und Drill down unterstützen. Beim Drill Down werden die Aggregationen eines Datenobjekts heruntergebrochen, beim Drill up als Gegenoperation die Informationen auf eine höhere Hierarchiestufe verdichtet.
Zum Beispiel könnte die Dimension Datum die Hierarchie Jahr > Quartal > Monat > Woche > Tag enthalten. Ein Bericht, der die monatliche Anzahl der Website-Logins seit 2009 anzeigt, könnte die Information auf eine höhere Hierarchiestufe verdichten (Drill up) und die Logins pro Jahr anzeigen. Andersherum könnte er in einem Drill down die Information herunterbrechen und die Logins pro Tag anzeigen.
Dimensionen werden in Data Warehouses als Stern- und Schneeflockenschema genutzt, bei OLAP-Würfeln und in Business-Intelligence- und Business-Analytics-Anwendungen. Die folgenden Dimensionen können verwendet werden, um bestimmte Data-Warehousing-Anforderungen zu erfüllen:
- Junk Dimensions - eine Sammlung verschiedener Attribute, die auf keine bestimmte Dimension bezogen ist.
- Degenerate Dimensions - Daten, die ihrer Natur nach dimensional sind, aber in einer Faktentabelle gespeichert werden.
- Role Playing Dimensions - eine Dimension, die je nach Kontext verschiedene Rollen in einer Faktentabelle spielen kann.
- Confirmed Dimensions - eine Dimension, die genau die gleiche Bedeutung und den gleichen Inhalt hat, wenn auf diese aus verschiedenen Faktentabellen referenziert wird.