ninog - Fotolia
Mit einem dezentralen Data Mesh mehr aus Daten herausholen
Ein Data Mesh ist ein dezentraler Ansatz zur skalierbaren Verwaltung und Bereitstellung analytischer Daten. Was für die Umsetzung eines Data Mesh notwendig ist.
Große Datenmengen sind aus der deutschen Wirtschaft kaum noch wegzudenken. Laut einer Bitkom-Umfrage haben neun von zehn Unternehmen erkannt, welche Bedeutung datenbasierter Erkenntnisse für ihren Geschäftserfolg haben. Gleichzeitig sind sich aber viele von ihnen bewusst, dass sie noch lange nicht das Maximum aus den verfügbaren Informationen herausholen.
Die Gründe sind vielfältig: Den einen fehlt es an den richtigen Werkzeugen, den anderen an der nötigen Zeit, um die ständig wachsenden Datenmengen sinnvoll zu nutzen. Häufig entpuppt sich aber auch eine zentrale Infrastruktur, die so oft als einzig wahre Möglichkeit zur Mobilisierung der Unternehmensdaten angepriesen wird, als größtes Hindernis, das einer erfolgreichen Datennutzung im Wege steht.
Warum ein dezentraler Ansatz nicht mit Silos gleichzusetzen ist
Viele international agierende Unternehmen besitzen eine äußerst komplexe Organisationsstruktur. Je größer sie sind, je mehr Abteilungen sie haben und mit je mehr Lieferanten und Partnern sie zusammenarbeiten, desto verzweigter ist auch die genutzte Infrastruktur. Um hier die Bildung von Silos und damit einen stockenden Informationsfluss zu vermeiden, sind sie bemüht, den Input aller Datenquellen in einer zentralen Lösung zu bündeln.
Tatsächlich bringt diese Strategie jedoch eigene Nachteile mit sich: Häufig gibt es bei einer zentral organisierten IT-Infrastruktur nur ein Datenteam – und dies steht zwischen den vielen Informationsquellen auf der einen und den immer mehr werdenden Nutzerinnen und Nutzern auf der anderen Seite. Die Aufgabe des Teams besteht darin, alle Datenströme in einem zentralen Depot zu integrieren. Da es allerdings häufig nicht ausreichend darüber informiert ist, um welche fachlichen Inhalte es sich genau handelt und wer diese in welchem Kontext für Analysen heranzieht, leidet am Ende nicht nur die Agilität, sondern auch die Qualität der integrierten Daten.
Bei einem Data Mesh ist das anders. Im Gegensatz zu einer herkömmlichen, zentralen Infrastruktur bildet es einen dezentralen Ansatz zur skalierbaren Verwaltung und Bereitstellung analytischer Daten. Das hat zur Folge, dass es nicht mehr nur ein Datenteam gibt, das sich um alle Datenquellen gleichzeitig kümmern muss. Stattdessen werden mehrere eingesetzt, die nur für ihre speziell zugewiesene Business-Domäne verantwortlich sind. Je nachdem, wie ein Unternehmen organisiert ist, kann es ein Datenteam pro Abteilung geben. Ebenso lohnt es sich, verwandte Bereiche wie zum Beispiel Marketing und PR zu einer Domäne zusammenzulegen.
Wichtig ist, dass jedes Team über das nötige Fachwissen in seinem speziellen Bereich verfügt und zum Beispiel weiß, auf welche Daten es in der Kommunikationsabteilung besonders ankommt, welche Analysen hier regelmäßig durchgeführt werden und an welcher Stelle eventuell noch externe Informationen hinzugekauft werden müssen, um bessere Ergebnisse zu liefern. Durch dieses fachliche Know-how können die einzelnen Datenteams bereits im Vorfeld dafür sorgen, dass die typischen Engpässe vermieden werden und die genutzten Informationen stattdessen stets in bester Qualität vorliegen.
Die vier Säulen des Data Mesh nach Zhamak Deghani
Damit ein Data Mesh sein volles Potenzial entfalten kann, bedarf es sowohl eines technologischen als auch eines kulturellen Wandels – und diese beiden müssen Hand in Hand gehen. Andernfalls besteht die Gefahr, dass durch die dezentral organisierte Infrastruktur neue Datensilos entstehen, was es unter allen Umständen zu vermeiden gilt.
Zhamak Deghani, die das Konzept des Data Mesh 2018 entwickelte, hat vier Säulen definiert, an denen Unternehmen sich orientieren sollten, wenn sie selbst dauerhaft auf den dezentralen Ansatz umsatteln wollen. Einer davon ist die bereits erwähnte Domänenorientierung. Durch sie haben die Datenteams die Chance, die individuellen Bedürfnisse ihres Bereichs im Detail kennenzulernen und deshalb bei der Datenintegration besser auf sie einzugehen. Das hilft dabei, die Datenagilität und -qualität dauerhaft zu verbessern.
Damit die Informationen über alle Abteilungen hinweg genutzt werden können, muss der Fokus beim Data Mesh außerdem auf deren Konsumierbarkeit liegen. Dafür sollten die Daten einerseits gut dokumentiert, leicht zu finden und qualitativ auf die Ansprüche der Nutzerinnen und Nutzer zugeschnitten sein – das sogenannte Datenprodukt ist also wörtlich zu verstehen. Um zu gewährleisten, dass es diese stets erfüllt, lohnt es sich, Manager einzusetzen, die die Zufriedenheit der Datennutzerinnen und Datennutzer messen und bei Bedarf an den richtigen Stellschrauben drehen, um diese zusätzlich zu erhöhen.
Gleichzeitig spielt eine bedienungsfreundliche Plattform eine wichtige Rolle. Schließlich handelt es sich nicht bei allen Mitarbeiterinnen und Mitarbeitern um geschulte Datenwissenschaftlerinnen und Datenwissenschaftler. Der Grundstein für ein Data Mesh sollte deshalb durch eine intuitiv zu bedienende Self-Service-Plattform gelegt werden, die einheitliche Hilfsmittel bietet, damit jede Domäne ganz unkompliziert ihre eigenen Datenprodukte erstellen, pflegen und anbieten kann.
Die vierte und letzte von Zhamak Deghani definierte Säule besteht in der sogenannten Federated Governance. Diese beschreibt einen Ansatz, bei dem zunächst global festgelegt wird, welche Governance- und Sicherheitsstandards es einzuhalten gilt.
Sind diese definiert, geht es darum, sie lokal in den einzelnen Domänen umzusetzen, wobei Methoden wie Zugriffskontrollen oder Data Masking zum Einsatz kommen können. Ebenso geht es in diesem Schritt darum, die Qualität und die Interoperabilität für alle Domänen einheitlich zu regeln.
„Damit ein Data Mesh sein volles Potenzial entfalten kann, bedarf es sowohl eines technologischen als auch eines kulturellen Wandels – und diese beiden müssen Hand in Hand gehen.“
Arjan van Staveren, Snowflake
Nur so lässt sich sicherstellen, dass alle Domänen gewisse Standards erfüllen und die von ihnen erstellten Datenprodukte auch für andere nutzbar sind. Damit das funktioniert, müssen zum Beispiel Datenformate und APIs einheitlich definiert werden. Aber auch Richtlinien für die Angabe von Metadaten oder allgemein genutzten Begrifflichkeiten spielen eine wichtige Rolle.
Das Data Mesh kann nur im Ganzen funktionieren
Gerade für Unternehmen, die eine komplexe Organisationsstruktur aufweisen, kann ein Data Mesh die bessere Wahl sein, da unter einer zentralen IT-Infrastruktur nicht nur die Agilität, sondern auch die Qualität der integrierten Daten leidet. Unter diesen erschwerten Bedingungen ist es für sie kaum möglich, eine übergreifende Datennutzung zu ermöglichen, die einerseits den Bedürfnissen aller Nutzerinnen und Nutzer gerecht wird und andererseits die Erkenntnisse, die in den verfügbaren Datenmengen verborgen liegen, voll ausschöpft.
Damit das Data Mesh in der Praxis funktionieren kann, reicht es jedoch nicht aus, es nur in bestimmten Bereichen einzusetzen – das zu verstehen, ist für Unternehmen, die von den Vorteilen profitieren möchten, das A und O. Um das volle Potenzial des dezentralen Ansatzes zu entfalten, muss es stringent über alle Abteilungen hinweg etabliert werden. Denn nur dann, wenn alle nach einheitlichen Standards arbeiten, können Silos vermieden und die erstellten Datenprodukte wirklich gewinnbringend eingesetzt werden – und zwar über alle Abteilungen hinweg.
Über den Autor:
Arjan van Staveren war 2017 der erste deutsche Mitarbeiter beim Data-Cloud-Unternehmen Snowflake. Heute ist er als Country Manager Germany für den deutschen Markt verantwortlich. Vor Snowflake hatte Arjan van Staveren leitende Positionen im Vertrieb bei Microsoft und Bazaarvoice.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.