Vasily Merkushev - stock.adobe.c
Neue Analytics-Anforderungen ergänzen Data Warehouses
Da sich Datenspeicherung und zugehörige Technologien weiterentwickeln, denken Anwenderunternehmen auch über die Optimierung ihres Data Warehouses nach.
Data Warehousing mit seiner ganzen Palette an Speicheroptionen ist ein komplexes Thema – zu komplex für manche Unternehmen. Aus diesem Grund versuchen viele die Komplexität zu reduzieren: Sie legen genau fest, was ein Data Warehouse ist und wie es auf ihre Architekturen angewendet werden kann.
Zu dieser Gruppe gehört Fernando Tadakuma, Data Engineer bei S4. Der Technologiedienstleister bietet Risikomanagement für die Lebensmittelindustrie an. S4 verwaltet und analysiert mehr als 200 Petabyte Daten. Das IT-Team hat sich große Mühe gegeben, herauszufinden, wie ihnen Data-Warehouse-Strategien den größtmöglichen Nutzen beim Umgang mit diesen Datenmengen bieten können.
Tadakuma und sein Team mussten feststellen, dass die Konzepte Datenbank, Data Mart, Data Warehouse und Data Lake in der Wissenschaft anders gesehen werden als in der Geschäftswelt. Diese Kluft zwischen Theorie und Praxis ist laut Tadakuma zum Teil auf die Unwissenheit, Versäumnisse oder Marketingstrategien der Warehousing-Anbieter zurückzuführen. Tadakuma kam zum Schluss, dass er und sein Team eine breite Palette von Tools als Teil ihrer Roadmap einsetzen mussten.
Anwendungen, die ein hohes Maß an Interaktion erfordern, gelten als geeignet für Data Warehouses. Datenquellen können jedoch zwischen Data Warehouses und Data Lakes hin und her verschoben werden. „Der Übergang zwischen der einen und der anderen Datenquelle hat derzeit einen geringen Automatisierungsgrad“, erklärt Tadakuma. „Der Ansatz verlangt aktuell menschliches Eingreifen. Diese Interaktion wollen wir nun auf autonome Tools, die an kommerziellen Zielen ausgerichtet sind, umstellen.“
Der Prozess der Datenerfassung umfasst bei S4 das Sammeln von Daten aus mehreren Kanälen wie Satellitenbildern, Wetterstationen, Drohnen, landwirtschaftlichen Maschinen, Banken, Regierungsdatensätzen und Benutzern.
Diese Rohinformationen fließen ungefiltert in ihren Data Lake. Basierend auf den aktuellen und vorhandenen Datenplänen des Unternehmens verschieben Filter einige dieser Daten von der relativ langsamen und billigen Data-Lake-Infrastruktur in eine Data-Warehouse-Infrastruktur namens le base.
Die Kosten sollten sich dabei nicht erhöhen. „Wir arbeiten hart daran, dass das Warehouse über spezielle Views verfügt“, sagt Tadakuma. „Über diese Views können die Mitarbeiter mit verschiedenen technischen Profilen problemlos relevante Daten für ihre Anforderungen abrufen.“ Manchmal aber benötigen Datenmanager schnellere Antwortzeiten oder bestimmte Domänenbeiträge, die ein Benutzer nicht ausführen kann. Diese Aufgaben werden in einem Data Mart mit einer spezifischen Datenbank-Engine implementiert. Sie hilft, benutzerdefinierte Algorithmen für verschiedene Risikomodellierungsszenarien zu erstellen.
„Die ganze Zeit, die wir investieren, um den Personen, die unseren Datenprozess anwenden oder auf irgendeine Weise daran teilnehmen, Daten, Modelle, Technologien und Theorien zu erklären, ist Zeit, die dann für das gesamte Unternehmen von Vorteil ist“, erläutert Tadakuma.
Sitzplätze um jeden Preis besetzen
„Sportteams setzen zum Beispiel Data-Warehouse-Strategien ein, um ein Gleichgewicht zwischen Ticketverkauf und Sitzplatzkapazität im Stadion herzustellen“, sagt Al Cordoba, Chief Data Officer und Wissenschaftler bei Qualex Consulting Services. „Die Sportmannschaften, die wir unterstützen, wollen einerseits jeden letzten Tropfen Umsatz aus den Sitzen in ihren Stadien herausholen. Andererseits soll die positive Erfahrung der Fans maximiert werden.“ Diese beiden Ziele müssen ins Gleichgewicht gebracht werden.
Der Preis für die Tickets muss so festgelegt werden, dass möglichst viele Fans auf den Plätzen sitzen und die Einnahmen maximiert werden. Das Data-Science-Team von Cordoba entwickelte hierfür einen dynamischen Preisalgorithmus.
Er nimmt historische Daten aus den Data Warehouses auf und überwacht das Verhalten der Fans. In den Data Warehouses werden Modellierungsdaten mit integrierten Variablen gespeichert und bereitgestellt, die sich auf Entscheidungen beim Ticketkauf auswirken, wie zum Beispiel das Wetter, der Gegner des Teams oder die Leistung des Teams sowie der wöchentliche Verkauf.
Auf der Grundlage dieser Daten kann der Ticketpreis erhöht oder gesenkt werden, je nachdem, ob der Algorithmus eine hohe oder niedrige Ticketnachfrage für ein bestimmtes Spiel vorhersagt. Ist die Nachfrage gering – zum Beispiel, weil das Wetter schlecht ist –, sinkt der Preis und das Stadion wird gut gefüllt. Ist die Nachfrage hoch, steigt der Preis und das Stadion ist ebenfalls gut gefüllt. Eine Win-Win-Situation sowohl für das Sportunternehmen als auch für die Fans. „Die Bereitstellung bestimmter Eintrittskarten für bestimmte Fans erhöht auch die Zufriedenheit der Fans“, sagt Cordoba.
Steigerung der Business Intelligence
Data Warehouses erfassen Daten, die von Betriebs-, ERP-, HR-, Analyse- und Finanzsystemen generiert werden. Diese Daten werden zur Unterstützung vordefinierter Berichte und Analysen wie Hauptbücher, Executive Dashboards und Marketingkampagnen verwendet.
„Data-Warehouse-Daten werden in der Regel in Business-Intelligence-Dashboard- und Berichts-Tools eingesetzt“, so Craig Kelly, Vice President of Analytics beim Cloud-Beratungsunternehmen Syntax. „Das funktioniert ähnlich wie ein Auto-Dashboard, das hochgradig aggregierte Daten liefert – außer, dass Sie in diesem Fall, wenn Sie auf die Kontrollleuchte des Motors klicken, tatsächlich sehen können, was das zugrundeliegende Problem ist. Sie brauchen nicht in die Werkstatt zu fahren, um das Problem herauszufinden.“
Bei der Ausarbeitung von Data-Warehouse-Strategien und der Performance-Optimierung müssen Datenmanager die wahren Betriebskosten abwägen. Diese gehen über die reinen Kosten der Data-Warehouse-Hardware hinaus. Kelly schlug daher vor, dass auch die Investitionen in ETL-Tools (Extract, Transform, Load), geplante Anwendungen und die damit verbundenen Lizenzgebühren für Datenbanken berücksichtigt werden sollten.
Es ist wichtig, beträchtliche Ressourcen in die Warehouse-Architektur sowie neuere Technologien wie spaltenorientierte Datenbanken zu integrieren. „Der schnellste Weg, um die Benutzerakzeptanz für Ihr Data Warehouse gegen die Wand zu fahren“, fügt Kelly hinzu, „ist, dass die Ausführung Ihrer Dashboards und Berichte zu viel Zeit in Anspruch nimmt.“
Auch die Qualität der in einem Warehouse gespeicherten Daten kann ein Problem sein. „Data Warehouses bieten Vorteile, wenn Daten für effiziente Analysen aggregiert und logisch organisiert werden müssen“, sagt Elena Goryainova, Senior Data and Analytics Consultant bei SPR, die Warehouses hauptsächlich für BI- und Analytics-Anwendungen nutzt.
Die größte Herausforderung sind für sie Probleme mit der Datenqualität – wie fehlende Quelldaten zu einem bestimmten Zeitpunkt. „Wenn Sie Probleme beim Auffinden von Daten haben, kann es sein, dass das Datenmodell zu komplex ist oder es keinen Datenkatalog gibt“, erklärt Goryainova.
Ein weiteres Problem ist die Leistungsverschlechterung, wenn ein Data Warehouse keine gleichzeitigen Workloads verarbeiten kann. Ein guter Ansatz zur Lösung dieses Problems ist die Zusammenarbeit mit Data-Warehouse-Teams. Sie können helfen, Verarbeitungs- oder Verbrauchsmuster zu ändern.
Die Data Warehousing Timeline
Im Zeitalter von Big Data und Cloud Computing ist zwar das Hauptaugenmerk auf Storage gerichtet. Doch das Warehousing von Daten kann auf eine lange Erfolgsgeschichte zurückblicken. Laut Michelle Wallig, Associate Vice President für Datenmodernisierung beim KI- und Analytics-Beratungshaus Cognizant, investieren viele Unternehmen bereits seit 30 Jahren in Data Warehouses.
Wallig kategorisierte drei verschiedene Perioden in der Entwicklung des Data Warehousing:
- Schemabasiert – Ende der 1990er Jahre bis 2003. Die meisten Data Warehouses wurden gebaut, um Daten über das gesamte Datenkontinuum zu organisieren – von der Erfassung der Daten über die Vorbereitung bis hin zur Aggregation.
- Leistungsbasiert – 2004 bis 2015. Der Schwerpunkt verlagerte sich auf Performance-Limitierungen, die sich aus den Beschränkungen der Infrastruktur und der Notwendigkeit eines verstärkten Datenzugriffs ergaben. Appliance-basierte Data Warehouses dominierten in diesem Zeitraum, da sie eine solide Leistung für Abfragen großer Datensätze lieferten.
- Elastizitätsbasiert – 2016 bis 2020. Während Leistungs- und Skalierbarkeitsprobleme gelöst worden waren, führte das Zusammenwachsen der Cloud mit Daten und Analysen zur Vereinfachung von Data Warehouses und es konnten Data-Lake-Architekturen emuliert werden. Das Scheitern großer Data-Lake-Projekte – Big-Data-Projekte der zweiten Generation – erforderte Cloud-basierte Data Warehouses zur Unterstützung unstrukturierter Daten.
Wallig sieht ein starkes Interesse an Data Warehouses – auch dann, wenn Unternehmen in die Cloud wechseln. „Wir sehen immer noch Investitionen in Data Warehouses, die mit Azure, AWS, Snowflake und Google in der Cloud gebaut werden. Sie unterstützen regulatorische und intelligente Workloads für die Entscheidungsfindung“, sagt sie. Die Data-Warehousing-Technologie ist inzwischen auch so ausgereift, dass sie automatisch skalieren kann, während sie gleichzeitig effizienter und kostengünstiger zu betreiben ist.
Es geht mehr um den Zweck als um Perfektion
Letztendlich wird der wahre Wert von Data-Warehouse-Strategien am Zweck und nicht an der Perfektion gemessen. „Wenn die internen Interessenvertreter verstanden und einbezogen werden, sieht der Endzustand eines Data Warehouses möglicherweise ganz anders aus als der anfängliche technische Architekturentwurf“, sagt Alex Mendoza, Principal Consultant bei Maven Wave Partners LLC.
Ein Benutzer eines Business Data Warehouses kann beispielsweise aus Gewinn- und Verlustsicht nur fünf Metriken antizipieren. In einigen Fällen müssen jedoch über 50 Datenquellen kalibriert und ausgerichtet werden. Dies ist häufig dann eine Herausforderung, wenn IT-Teams das Warehouse erst im perfekten Zustand freigeben möchten.
Aus Gründen der Zweckmäßigkeit ist es manchmal besser, sich mit weniger zufrieden zu geben, als zu versuchen, das perfekte Data Warehouse aufzubauen, so Mendoza. „In einem perfekten Szenario kann ein Data Warehouse auch als Mechanismus genutzt werden, um Probleme der Datenqualität aufzudecken und Diskussionen zu ermöglichen. Die Hoffnung dabei ist, die Grundursache zu beheben, anstatt sie mit komplexen Ausnahmeregeln zu maskieren.“