canjoena - stock.adobe.com

Data-Warehouse-Plattformen und ihre Anwendung evaluieren

Es gibt noch immer Bedarf für Data Warehouses in Unternehmen. Datenmanager und Analysten müssen allerdings prüfen, wofür sie ein Data Warehouse einsetzen wollen.

Data Warehouses bieten einen Einblick in die historische Leistung und den laufenden Betrieb eines Unternehmens und liefern Datenanalysten und Geschäftsanwendern Informationen zu Themen wie Kundenverhalten, Geschäftstrends, Betriebseffizienz und Vertrieb.

Trotz des Entstehens von Data Lakes, die auf Hadoop und anderen Big-Data-Technologien basieren, bleibt das Data Warehouse durch die wachsende Notwendigkeit für Unternehmen, Geschäftsdaten aus verschiedenen Quellsystemen zu erfassen und zu analysieren, so relevant wie eh und je, wenn nicht sogar noch relevanter.

Bevor Sie jedoch in eine Data-Warehouse-Plattform als Teil Ihrer Datenmanagementarchitektur investieren, sollten Sie zunächst prüfen, ob Ihr Unternehmen eine solche Plattform wirklich benötigt und welche geschäftlichen Vorteile sie durch die Implementierung einer solchen Plattform erzielen.

In diesem Zusammenhang müssen Sie die verschiedenen Data-Warehouse-Bereitstellungsoptionen in Betracht ziehen: Soll die Anwendung unternehmensweit oder auf Abteilungsebene implementiert werden? Verwendet man eine On-Premises- oder Cloud-Lösung?

Sie müssen auch bestimmen, ob die unstrukturierten und halbstrukturierten Daten, die üblicherweise in Big-Data-Systemen gespeichert werden, Bestandteil der Data-Warehouse-Umgebung sein werden, und entscheiden, ob Sie das traditionelle Data Warehousing für Business Intelligence (BI), Unternehmensberichte und OLAP-Anwendungen (Online Analytical Processing) mit der Datenverarbeitung und -verwaltung für Big-Data-Analysen integrieren möchten. Schließlich müssen Sie Ihren Data-Warehousing-Anwendungsfall auf die geeignete Plattform abstimmen.

Warum werden Data Warehouses benötigt?

Das allgemeine Konzept von Data Warehousing ist einfach: Aus den operativen Systemen, die die Geschäftsprozesse unterstützen, werden regelmäßig Datenkopien extrahiert und in ein separates Repository geladen, wo die Daten konsolidiert und dann für Analyse und Berichterstattung zur Verfügung gestellt werden. Geschäftsanwender und Analysten können dann über BI- und Analyse-Tools, Dashboards, Portale und vorbereitete Berichte auf die Daten zugreifen.

Folgenden Bedingungen können darauf hindeuten, dass Ihr Unternehmen von einem Data Warehouse profitiert:

  • Das Unternehmen hat Schwierigkeiten, effektiv über Geschäftsaktivitäten zu berichten, da die erforderlichen Daten nicht ohne weiteres verfügbar sind.
  • Geschäftsdaten werden zur Analyse durch verschiedene Abteilungen und Benutzergruppen in Tabellenkalkulationen kopiert, die nicht immer miteinander konsistent sind.
  • Unsicherheiten in Bezug auf Datenqualität und -genauigkeit führen dazu, dass Unternehmensleiter und Geschäftsmanager die Richtigkeit von Berichten in Frage stellen.
  • BI-Berichte aus Produktionsdatenbanken verzögern die nächtliche oder am Monatsende stattfindende Verarbeitung von Transaktionsdaten, so dass die Verarbeitungsfenster erweitert werden müssen.
  • Das Ausführen von Ad-hoc-Abfragen gegen die Datenbanken während des Arbeitstages verlangsamt die operativen Systeme, was sich auf interne Anwender und Kunden, Lieferanten und andere externe Anwender auswirkt.

Ein ordnungsgemäß implementiertes Data Warehouse kann Ihrem Unternehmen helfen, Fragen zu Geschäftsvorgängen genau zu beantworten, zum Beispiel was passiert ist und warum. Data Warehousing verbessert die Datenzugänglichkeit, da es Daten aus unterschiedlichen Standorten und Quellen in einem zentralen Repository zusammenführt. Wenn Daten in das Data Warehouse verschoben werden, werden sie in der Regel auch bereinigt und transformiert, damit sie für die Analyse konsistent sind. Das trägt dazu bei, die Qualität der Informationen in Abfrageergebnissen und Berichten zu verbessern.

Sobald das Data Warehouse eingerichtet ist und aktiv genutzt wird, werden die betrieblichen Arbeitsabläufe wahrscheinlich effizienter, da BI-, Berichts- und Analysetätigkeiten aus den Produktionsdatenbanken ausgelagert wurden.

Data-Warehouse-Bereitstellungsoptionen

Eine Data-Warehouse-Umgebung kann sich von Organisation zu Organisation unterscheiden. Aus architektonischer Sicht können Implementierungen mehreren Pfaden folgen – einem Enterprise Data Warehouse (EDW), einer Gruppe von kleineren Data Marts oder einer Kombination dieser beiden Ansätze.

Ein EDW ist so konzipiert, dass es alle relevanten Daten aus den operativen Systemen eines Unternehmens enthält und möglicherweise auch einige Daten, die aus externen Datenquellen gesammelt wurden (siehe Abbildung 1). Es handelt sich um ein einziges, einheitliches Repository für BI- und Analysedaten, das abteilungs- und bereichsübergreifend verwendet werden soll. Infolgedessen ist der Aufbau eines EDW oft ein umfangreiches Unterfangen, insbesondere in großen Unternehmen.

Abbildung 1: Prozesse in Enterprise-Data-Warehousing-Systemen.
Abbildung 1: Prozesse in Enterprise-Data-Warehousing-Systemen.

In einer EDW-Architektur können Organisationen auch einen Operational Data Store (ODS) als Zwischenschritt zwischen ihren operativen Systemen und dem Enterprise Data Warehouse implementieren. Operative Daten werden in das ODS kopiert und dann extrahiert und in das Data Warehouse geladen. Der ODS dient als Bereitstellungsbereich für Daten, die für die Analyse noch transformiert werden müssen, und er kann zur Ausführung von Nahe-Echtzeit-Abfragen verwendet werden, die detailliertere Daten über die jüngsten Geschäftsvorgänge erfordern, als im Data Warehouse verfügbar sind.

Data Marts sind verkleinerte Data Warehouses, die sich auf einzelne Geschäftseinheiten und Themenbereiche konzentrieren. Unternehmen entscheiden sich häufig für den Aufbau von Data Marts, wenn die Erfüllung abteilungsspezifischer Anforderungen an BI- und Berichtsfunktionen eine Priorität darstellt. Anstatt ein umfangreiches Projekt zu erfordern, das das gesamte Unternehmen umfasst, sind Data Marts zielgerichteter und können schneller geschäftliche Vorteile bieten.

Infolgedessen ermöglicht die Anwendung des Data-Mart-Ansatzes einem Unternehmen die iterative Entwicklung einer Data-Warehouse-Architektur, indem einzelne Teile des Unternehmens nacheinander in Angriff genommen werden, anstatt eine monolithisches EDW in einer einzigen großen Initiative aufzubauen. Je nach Größe und Struktur des Unternehmens können ein Data Mart oder viele von ihnen eingesetzt werden.

Verschiedene Data Marts können dann miteinander integriert werden, um eine virtuelles EDW zu erstellen, oder sie können zur physischen Bestückung eines EDW in Organisationen verwendet werden, die sich entscheiden, die beiden Ansätze zu kombinieren (siehe Abbildung 2). Alternativ können Organisationen, die mit einem EDW beginnen, Teilmengen der gelagerten Daten in Data Marts einspeisen, die sie später für diskrete Geschäftsvorgänge einrichten.

Abbildung 2: Data Warehousing mit Data Marts umsetzen.
Abbildung 2: Data Warehousing mit Data Marts umsetzen.

On-Premises versus Cloud Data Warehouses

Die verschiedenen Einsatzmöglichkeiten sind mit jeder Art von Data-Warehouse-Plattform möglich, die zur Verfügung steht: Datenbankmanagementsysteme (DBMS), die in der Regel auf relationaler Datenbanktechnologie basieren; spezialisierte analytische DBMS; Data Warehouse Appliances, die die erforderliche Hardware und DBMS-Software in einem einzigen Paket bündeln; und Cloud Data Warehouses.

Die Nutzung der Cloud für Data Warehousing ist zu einer praktikableren Wahl geworden. Mehrere Anbieter haben Cloud-basierte Data-Warehouse-Plattformen eingeführt, und die Anbieter, die ursprünglich Data-Warehouse-Datenbanken für lokale Installationen entwickelt haben, bieten jetzt Cloud-Versionen davon an. Das Produktangebot umfasst herkömmliche Data-Warehouse-Systeme, die Unternehmen selbst in der Cloud betreiben, und Data-Warehouse-as-a-Service-Technologien (DWaaS), die von den Anbietern für die Benutzer bereitgestellt und verwaltet werden.

Wie andere Arten von Cloud-Systemen können Cloud Data Warehouses die Bereitstellungszeit verkürzen und im Vergleich zu On-Premises-Umgebungen eine einfachere Skalierbarkeit und höhere Flexibilität bieten. Es gibt auch das Potenzial für Kosteneinsparungen, aber das ist nicht garantiert – IT-Manager müssen die Nutzung von Data Warehouses in der Cloud genau im Auge behalten, um sicherzustellen, dass die Kosten am Ende nicht höher als erwartet ausfallen.

Auch Fragen der Datensicherheit und des Datenschutzes können ein Faktor bei der Entscheidung über den Einsatz eines On-Premises Data Warehouses sein.

Data Lake versus Data Warehouse

Nachdem Hadoop und andere Big-Data-Technologien zum ersten Mal auftauchten, waren Marktteilnehmer begeistert, aber auch verwirrt, ob die Technologie Data Warehouses ersetzen wird. Doch in den meisten Unternehmen verschwinden Data Warehouses nicht. Stattdessen existieren sie und Big-Data-Systeme in der Regel nebeneinander, wobei jedes System unterschiedliche Arten von Analyseverfahren unterstützt.

Eine Data-Warehouse-Plattform basiert in der Regel auf einem relationalen DBMS und enthält strukturierte Daten, die aus den Betriebs- und Transaktionsverarbeitungssystemen eines Unternehmens stammen. Auf Data Warehouses greifen in erster Linie Geschäftsanalysten und Führungskräfte zu, die grundlegende SQL-basierte BI-Abfragen ausführen möchten, sowie BI-Entwickler, die Dashboards und Berichte erstellen, die den Geschäftsanwendern Analyseinformationen präsentieren.

Big-Data-Systeme hingegen basieren in der Regel auf nicht-relationalen Technologien wie Hadoop-, Spark- und NoSQL-Datenbanken. Die Daten, die sie enthalten, können strukturiert, unstrukturiert oder halbstrukturiert sein und können aus allen Arten von internen Systemen sowie sozialen Netzwerken und anderen externen Datenquellen stammen.

Die Analyse großer Datenmengen zielt auf die Entdeckung von Mustern, Korrelationen und ähnlichen Erkenntnissen ab – zum Beispiel die Vorhersage zukünftiger Trends und Kundenverhalten auf der Grundlage vergangener Aktivitäten. Diese werden gewöhnlich mit komplexen analytischen Modellen durchgeführt, die von Data Scientists und Statistikern in Sprachen wie Python, R und Scala entwickelt wurden.

Big-Data-Technologien ermöglichen auch das Konzept des Data Lake, eines Speichers von Rohdaten aus verschiedenen Quellen, die bei Bedarf gefiltert und für die Analyse vorbereitet werden können.

Letztendlich sind Big-Data-Systeme jedoch kein direkter Ersatz für Data Warehouses und Data Marts. Tatsächlich gibt es eine Synergie zwischen Data Warehouses und Data Lakes. Beispielsweise können Sätze strukturierter Daten, die in einem Data Lake gesammelt wurden, zur herkömmlichen OLAP-Speicherung und Analyse in ein Data Warehouse verschoben werden.

Die Anbieter haben auch damit begonnen, Big-Data-Zugriffe in Data-Warehouse-Plattformen zu integrieren, so dass von einem einzigen Ort aus auf Daten zugegriffen werden kann, die in verschiedenen Systemen und Formaten gespeichert sind.

Data-Warehouse-Anwendungsfälle und -Szenarien

Lassen Sie uns nun einige Anwendungsfälle und Szenarien untersuchen, die die Data-Warehouse-Strategie Ihrer Organisation und die Entscheidungen darüber, welche Arten von Plattformen für Warehousing-Projekte eingesetzt werden sollen, beeinflussen können.

Erstmalige versus langjährige Data-Warehouse-Benutzer. Unternehmen, die eine bestehende Data-Warehouse-Implementierung erweitern möchten, sollten die bereits vorhandene Data-Warehouse-Plattform weiter nutzen. Für Unternehmen, die ihr erstes Data Warehouse implementieren, kann eine Data-Warehouse-Anwendung eine überzeugende Option sein. Der ausgewählte Anbieter wird gemeinsam mit Ihnen die geeignete Größe und Konfiguration der Appliance bestimmen, die einsatzbereit geliefert wird. Alle Data-Warehouse-Plattformen sind jedoch für Erstanwender praktikable Optionen, und Sie sollten die zusätzlichen Anwendungsfälle in diesem Abschnitt untersuchen, um Ihre spezifischen Anforderungen und Einsatzpläne zu entwickeln.

Größe des Unternehmens. Große Unternehmen können sich für ein relationales Mainstream-DBMS, eine analytische Datenbank oder ein hybrides Transaction-/Analytical-Processing-System (HTAP) entscheiden. Diese Organisationen verfügen über die Infrastruktur und das Personal, um solche Technologien erfolgreich einzusetzen. Beim HTAP-Ansatz kann dasselbe DBMS sowohl für die Verarbeitung operativer Transaktionen als auch für BI und analytische Modellierung verwendet werden. Zur Unterstützung von HTAP kann eine relationale Datenbank-Engine einen integrierten Spaltenzugriff oder ein Zusatzgerät für die analytische Verarbeitung bieten.

Auf der anderen Seite sollten kleinere Organisationen eine Data-Warehouse-Appliance oder einen Cloud-Data-Warehouse-Service in Betracht ziehen. Beide Optionen minimieren den Verwaltungsaufwand: Die Appliance wird vorkonfiguriert geliefert, und das Data Warehouse in der Cloud, das eine DWaaS-Umgebung bietet, wird vom Cloud-Service-Provider eingerichtet und verwaltet.

Größe der IT-Abteilung. Große Organisationen mit relativ kleinen IT-Abteilungen haben tendenziell weniger Datenbank-Administrator (DBA) und andere IT-Profis, die ein Data-Warehouse-System einrichten, abstimmen und verwalten können. Für sie ist es sinnvoll, eine Data Warehouse-Appliance oder ein DWaaS-Angebot in Betracht zu ziehen.

Cloud-Nutzung. Wenn Ihr Unternehmen viele Anwendungen in der Cloud betreibt, ist eine DWaaS-Bereitstellung oder eine selbst verwaltete Cloud-Data-Warehouse-Plattform möglicherweise die beste Option. Es ist ein logischer Ansatz, Geschäftsdaten, die in der Cloud generiert und gespeichert werden, dort für Data Warehousing und Analysen aufzubewahren.

Anforderungen an die Datenlatenz. Für Unternehmen, die minimale Datenlatenzzeiten bei Analyseanwendungen benötigen, sind optimierte Data Warehouse Appliances wahrscheinlich am sinnvollsten. Es ist möglich, mit anderen Ansätzen nahezu Echtzeit-Latenzzeiten zu erreichen, aber möglicherweise müssen Sie Ihre Data Warehouse-Umgebung mit zusätzlicher Hardware und Software erweitern, um Ihre Leistungsziele zu bewältigen.

Sobald Ihr Unternehmen entschieden hat, dass es ein Data Warehouse benötigt, und sich für das Einsatzszenario entschieden hat, das am sinnvollsten ist, ist der nächste Schritt die Untersuchung der verfügbaren Technologieoptionen für den Kauf einer Data-Warehouse-Plattform.

Erfahren Sie mehr über Big Data