Data Warehouse as a Service (DWaaS)
Data Warehouse as a Service (DWaaS) ist ein Outsourcing-Modell, bei dem ein Cloud-Service-Anbieter die für ein Data Warehouse erforderlichen Hardware- und Softwareressourcen konfiguriert und verwaltet, während der Kunde die Daten einspeist.
Mit DWaaS muss ein Unternehmen nicht im Voraus Geld für den Kauf von Hardware und Software ausgeben und das System dann in seinem eigenen Rechenzentrum installieren. Es muss sich auch nicht um die Verwaltung der zugrunde liegenden Systeminfrastruktur oder um die routinemäßige Administration der Datenbank kümmern, die das Herzstück des Data Warehouse bildet. Diese Aufgaben werden von DWaaS-Anbietern erledigt.
DWaaS-Implementierungen nehmen stetig zu, da immer mehr Unternehmen von On-Premises-Systemen auf Cloud Data Warehouses umsteigen. In einer Ende 2021 vom IT-Management-Tool-Anbieter Flexera durchgeführten Umfrage unter 753 Cloud-Anwendern gaben 55 Prozent der Befragten an, dass ihre Unternehmen Data-Warehouse-Cloud-Services nutzen. Die zunehmende Akzeptanz von DWaaS-Umgebungen ist Teil einer breiteren Entwicklung hin zu Cloud-Datenbanken insgesamt. Für Daten, die in der Cloud generiert werden, ist DWaaS eine natürlichere Lösung als ein lokales Data Warehouse.
DWaaS-Komponenten
Cloud Data Warehouses ähneln aus architektonischer und technologischer Sicht den On-Premises Data Warehouses. Zu den Hauptkomponenten einer typischen Data-Warehouse-Implementierung gehören folgende Elemente:
- Datenbankmanagementsystem (DBMS). Ein Data Warehouse benötigt ein Datenbankmanagementsystem (DBMS) zur Speicherung, Verarbeitung und zum Zugriff auf die enthaltenen Daten. Meistens werden für Data Warehouses herkömmliche relationale Datenbanken verwendet, die Daten in Zeilen speichern, aber sie können auch auf spaltenbasierten Datenbanken aufgebaut werden. Da Data Warehousing auf einmalige Schreib-/Lesevorgänge ausgerichtet ist, kann die Verwendung einer spaltenbasierten Engine die Effizienz und Leistung analytischer Abfragen verbessern. Ein relationales DBMS, das spaltenbasierte Datenbanken unterstützt, ist eine weitere Alternative.
- Storage. Wie das DBMS und die Server-Hardware, auf der es läuft, wird auch die Data-Storage-Hardware als Teil einer DWaaS-Umgebung bereitgestellt. Es kann eine Vielzahl von Speicheroptionen verwendet werden, darunter herkömmliche Festplattenlaufwerke, Solid-State Drives und Cloud-Objektspeicherdienste.
- Tools für das Metadatenmanagement. Metadaten charakterisieren Daten und dokumentieren sie, damit Datensätze verstanden und leichter genutzt werden können. Sie beantworten die Fragen nach dem Wer, Was, Wann, Wo, Warum und Wie für die Nutzer der Daten. Ohne Metadatenmanagementfunktionen ist es schwierig, ein Data Warehouse effektiv zu nutzen.
- Data Pipelines. Data Warehouses sind für die Unterstützung von Business Intelligence (BI) und Datenanalysen konzipiert. Transaktionsdaten müssen aus operativen Systemen in ein Data Warehouse verschoben werden. Außerdem müssen die Daten transformiert werden, um sie für analytische Abfragen besser organisieren und formatieren zu können. Datenintegrations-Tools, die ETL-Prozesse (Extract, Transform, Load) unterstützen, sind daher erforderliche DWaaS-Komponenten. Andere Integrationsmethoden werden in der Regel ebenfalls unterstützt. Dazu gehören ELT-Prozesse (Extract, Load, Transform), eine Alternative zu ETL, die häufig bei großen Datensätzen verwendet werden, welche nach dem Laden in ein Warehouse für verschiedene Analysezwecke transformiert werden.
- Berichts- und Analyse-Tools. Der Hauptzweck eines Data Warehouse besteht darin, Datenanalysten und Fachleute in die Lage zu versetzen, Geschäftseinblicke aus Betriebsdaten zu gewinnen. BI-Tools, die Abfrage-, Analyse- und Berichtsfunktionen für das Data Warehouse unterstützen, sind daher ein Muss.
All diese Funktionen können vom DWaaS-Anbieter zum Nutzen des Anwenderunternehmens bereitgestellt und verwaltet werden. Es gibt jedoch verschiedene Methoden für den Kauf, die Installation und die Konfiguration der erforderlichen Hardware- und Software-Infrastruktur zur Unterstützung eines Data Warehouse in der Cloud.
Ein Ansatz besteht darin, herkömmliche Data-Warehouse-Software auf einer Cloud-Infrastruktur bereitzustellen. Dieser Ansatz ist dem On-Premises Data Warehousing am ähnlichsten. Das Fachwissen zum Aufbau und zum Management des Data Warehouse liegt beim Kunden, während die Implementierung und ein Großteil des laufenden Supports beim gewählten Cloud-Anbieter liegt.
Bei einem reinen DWaaS-Ansatz hingegen stützt sich der Kunde auf den Plattformanbieter oder einen anderen Data-Warehouse-Anbieter, der seine Software auf einer Cloud-Plattform ausführt, um eine vollständige Data-Warehouse-Umgebung bereitzustellen. Der DWaaS-Anbieter sorgt auch für das laufende Management des Data Warehouse, einschließlich Konfiguration, Leistungsmanagement und Unterstützung bei der Datenintegration. Die Kunden können die Rechen- und Speicherressourcen je nach Bedarf skalieren, wobei die Zahlungen auf der Grundlage der genutzten Ressourcen erfolgen. Systemressourcen können je nach Bedarf bereitgestellt oder reserviert werden, um vergünstigte Preise zu erhalten.
Vorteile von DWaaS
Die Vorteile von DWaaS ähneln denen aller Cloud-Computing-Dienste, einschließlich der einfacheren Bereitstellung und der geringeren IT-Managementaufgaben. Ein Datenbankadministrator (DBA), der für ein Data Warehouse verantwortlich ist, muss beispielsweise keine neuen Versionen der verwendeten Datenbanksoftware mehr installieren, und das IT-Team eines Unternehmens muss die zugrunde liegende Hardware nicht installieren, aufrüsten oder ersetzen.
Zu den potenziellen Vorteilen einer DWaaS-Umgebung gehören auch:
- Niedrigere IT-Kosten. Die Gesamtausgaben für IT und Datenmanagement können gesenkt werden, da DWaaS keine Investitionen in Hardware und Software erfordert und die Betriebskosten in lokalen Rechenzentren senkt.
- Leichtere Skalierbarkeit. DWaaS-Benutzer können bei Bedarf schnell weitere Datenverarbeitungs- und Speicherkapazitäten hinzufügen und ihre Systeme wieder herunterfahren, wenn die Ressourcen nicht mehr benötigt werden. Außerdem ist es nicht erforderlich, Hardware hinzuzufügen oder aufzurüsten oder die Vertragsbedingungen ständig neu zu verhandeln.
- Geringerer Personalbedarf. Da das Management größtenteils vom Service-Provider übernommen werden, muss ein Unternehmen keine neuen Mitarbeiter einstellen, um ein Data Warehouse zu unterstützen. Dies macht DWaaS zu einer guten Wahl für Unternehmen mit kleinen oder begrenzten IT-Abteilungen, obwohl Cloud Data Warehouses auch geschäftskritische Analyse-Workloads in großen Unternehmen bewältigen können.
- Schnellerer Zugang zu neuen Softwarefunktionen. Anstatt auf eine neue Version der Data-Warehouse-Software eines Anbieters warten und diese dann installieren zu müssen, wie es bei lokalen Systemen der Fall ist, können die Benutzer die Vorteile von Software-Updates nutzen, die DWaaS-Anbieter häufig laufend bereitstellen.
DWaaS bietet außerdem die gleichen allgemeinen Vorteile wie lokale Data Warehouses, einschließlich eines erweiterten Datenzugriffs für Endbenutzer und einer verbesserten Datenqualität mit höherer Genauigkeit und Konsistenz. Letztlich kann dies zu effektiveren BI- und Analyseanwendungen führen, die zu einer besseren Entscheidungsfindung beitragen.
Nachteile von DWaaS
Wie bei jedem Cloud-Angebot sind Leistung und Verfügbarkeit die wichtigsten Faktoren für potenzielle DWaaS-Benutzer. Da ein DWaaS-System in der Cloud ausgeführt wird, benötigen die Benutzer eine zuverlässige Internetverbindung für den Zugriff auf das Data Warehouse. Wenn die Verbindung beeinträchtigt ist oder verloren geht, kann das System eine schlechte Leistung erbringen oder nicht verfügbar sein. Die Kunden müssen sich auch darauf verlassen, dass der DWaaS-Anbieter die Leistung verwaltet und eine hohe Verfügbarkeit gewährleistet. Serviceausfälle wirken sich in ähnlicher Weise auf die Nutzung eines Data Warehouse aus.
Auch die Latenzzeit kann bei DWaaS-Implementierungen ein Problem darstellen. Die folgenden beiden Aspekte der Latenz bei DWaaS müssen berücksichtigt und verwaltet werden:
- die Verzögerung bei der Übertragung von Daten aus operativen Systemen in das Data Warehouse, was ein Problem der Datenintegration darstellt, und
- die Verzögerung beim Zugriff auf die Daten, sobald sie sich im Data Warehouse befinden, um sie abzufragen und zu analysieren.
Die Menge der Daten, die aus den operativen Systemen in das Data Warehouse übertragen werden müssen, ist der wichtigste Faktor für die Latenzzeit bei der Datenintegration. Je mehr Daten hinzugefügt werden müssen, desto länger dauert in der Regel die Migration von der Datenquelle in eine DWaaS-Umgebung. Ebenso sind analytische Abfragen, die große Datenmengen zurückgeben, am stärksten von Datenlatenzproblemen bedroht.
Eine weitere Herausforderung bei DWaaS besteht darin, die Abhängigkeit von einem bestimmten Anbieter zu verringern. Es ist nicht immer einfach, von einem DWaaS-Anbieter zu einem anderen zu wechseln – jedes Angebot ist anders. Daher ist es ratsam, ein DWaaS-System mit zugrunde liegenden Komponenten zu wählen, mit denen sich Ihr IT- und Datenmanagementteam auskennt, um die Möglichkeit zu wahren, zu einem späteren Zeitpunkt zu einem anderen Anbieter zu migrieren.
Darüber hinaus können Unternehmen Bedenken hinsichtlich der Datensicherheit, der Compliance und des Risikomanagements in einer DWaaS-Umgebung haben. Auch die Kosten können zu einem Problem werden, wenn die Nutzung eines Cloud Data Warehouses die Erwartungen übersteigt oder wenn nicht benötigte Systemressourcen nicht identifiziert und entfernt werden.
Die wichtigsten DWaaS-Anbieter und -Technologien
Wie bereits erwähnt, gehören zu den DWaaS-Anbietern die führenden Anbieter von Cloud-Plattformen – AWS, Google Cloud, Microsoft Azure und Oracle – sowie andere Hersteller von Cloud Data Warehouses, die eine oder mehrere dieser Plattformen zur Ausführung ihrer Software nutzen. Die folgenden Technologien sind einige der führenden DWaaS-Angebote:
- Amazon Redshift
- Google BigQuery
- IBM Db2 Warehouse on Cloud
- Firebolt
- Microsoft Azure Synapse Analytics
- Oracle Autonomous Data Warehouse
- Panoply
- SAP Data Warehouse Cloud
- Snowflake
- Teradata Vantage
- Yellowbrick Data Warehouse