Oleksii - stock.adobe.com

Tipp

Data Hub versus Data Lake: Wie unterscheiden sie sich?

Data Lake und Data Hub sind Konzepte für das Datenmanagement, die sich konträr gegenüberstehen. Hier sind die Hauptunterschiede zwischen den beiden Optionen.

von

Joseph M. Carew, TechTarget

Zuletzt aktualisiert: 07 Jan. 2021

Die meisten Unternehmen haben inzwischen erkannt, dass sie ihre Kunden und Nutzer besser verstehen, wenn sie viele Informationen von ihnen haben. Die Art und Weise, wie ein Unternehmen diese Daten speichert und analysiert, kann eine ausgewogenere und intelligentere Sicht auf die Kunden und Nutzer und die betrieblichen Abläufe ermöglichen.

Data Lakes und Data Hubs sind zwei verschiedene Speicheroptionen, die Unternehmen bei dieser Mission unterstützen. Ein Data Lake speichert Rohdaten ähnlich wie ein echter See Wasser speichert – massenhaft und ohne Struktur. Ein Data Hub hingegen besteht aus einem Core-Storage-System, dessen Daten stern- oder speichenartig in verschiedene Bereiche hineinreichen.

Zum Thema Data Hub versus Data Lake gibt es eine anhaltende Debatte. Im Zentrum steht vor allem die Frage, wie man am besten an die Datenerfassung und -speicherung herangeht. Obwohl es sich bei Data Lake und Data Hub um zwei gängige Begriffe handelt, kann es immer noch eine Herausforderung sein, zwischen beiden zu unterscheiden.

Was ist ein Data Lake?

Ein Data Lake ist eine zentralisierte Storage-Option, in der alle Datentypen gespeichert werden. Es ist nicht erforderlich, Daten in ein einziges Format zu übersetzen, da ein Data Lake eine große Menge von Rohdaten in seinem ursprünglichen Format enthält.

„Data Lakes wurden von Unternehmen geschaffen, weil sie den Wert ihrer Daten verstanden haben“, sagt Hossein Rahnama, Professor für Machine Intelligence am MIT sowie Gründer und CEO von Flybits. „Durch das Zusammenführen all dieser Daten können Unternehmen sowohl die Bedürfnisse ihrer Kunden als auch die Bedürfnisse ihres Unternehmens besser vorhersagen.“

Ein Data Lake dient als Aufbewahrungsort für Daten aus allen Teilen eines Unternehmens. Dies macht die Datenspeicherung einfacher als andere Storage-Lösungen. Probleme kann es jedoch geben, wenn die Daten wieder aus dem Speicher herausgezogen werden. Um die gewünschten Daten von einem Data Lake abzurufen, müssen diese abgefragt werden. Dabei haben Benutzer eines Data Lakes möglicherweise Probleme mit der Zugänglichkeit. Oft sind technische Fähigkeiten erforderlich, um relevante Informationen zu finden und aus diesen Daten Schlussfolgerungen zu ziehen.

„Unternehmen, die ihren Data Lake erfolgreich nutzen, bauen auch eine kreative und interaktive Schicht auf diesem Data Lake auf. Damit können auch Nicht-IT-Experten Datenressourcen nutzen und neue Funktionen aufbauen“, erklärt Rahnama.

Data Lakes werden häufig mit einem Hadoop-Framework verknüpft. Dedizierte Kenntnisse sind dafür nicht unbedingt notwendig. Viele Anbieter – darunter Amazon Web Services (AWS), Cloudera und Microsoft – unterstützen inzwischen Data-Lake-Architekturen. Einige bieten sogar die Möglichkeit, Data Lakes in der Cloud bereitzustellen.

Was ist ein Data Hub?

Ein Data Hub kann als Hub-and-Spoke-Ansatz zum Speichern und Verwalten von Daten betrachtet werden. Dabei werden die Daten physisch verschoben und in einem neuen System re-indiziert. Dies verleiht den Daten mehr Struktur und ermöglicht es verschiedenen Geschäftsanwendern auf die Informationen, die sie benötigen, schneller als in einem Data Lake zuzugreifen.

„Data Hubs werden normalerweise als gemeinsame Projekte von kooperierenden Unternehmen erstellt“, sagt Rahnama. Beispielsweise können sich ein Telekommunikationsbetreiber, eine Bank und ein Supermarkt zusammenschließen, um Erkenntnisse und Datenelemente auszutauschen. Jede Speiche – also jedes Unternehmen – hat Zugang zu einigen oder allen gesammelten Daten, je nachdem, was sie sich davon versprechen.

„Der Telekommunikationsanbieter verfügt möglicherweise über eine Daten-Cloud, in der TK-Informationen gespeichert sind. Die Finanzorganisation kann eine andere Cloud haben, die Transaktionsdaten speichert, und der Supermarkt hat wieder einen anderen Datensatz“, erläutert Rahnama. „Diese Organisationen haben dabei zwei Möglichkeiten: Sie können eine Datenallianz oder einen Data Hub erstellen. Bei Letzterem einigen sie sich darauf, ihre Daten in einem zentralen Repository zu hosten, auf das alle drei zugreifen können.“

Im Allgemeinen kommen bei diesem Thema umgehend Bedenken hinsichtlich des Datenschutzes auf. Die von einer Bank gesammelten Informationen könnten zum Beispiel den Weg zu einem völlig anderen Unternehmen finden. Um diese Bedenken auszuräumen, ist es für Unternehmen, die Data Hubs verwenden, wichtig, die Zustimmung der Kunden zur Weitergabe ihrer Daten einzuholen.

Ähnlich wie Data Lakes wurden Data Hubs ursprünglich auf einem Hadoop-Framework aufgebaut. Doch inzwischen gibt es auch andere beliebte Anbieter, darunter MarkLogic und Google.

Data Hub versus Data Lake

Das Erstellen eines Datenhubs bedeutet nicht, dass die Data-Lake-Architektur nicht verfügbar ist.

„Ein Data Hub kann gleichzeitig eine Data-Lake-Architektur verwenden – oder nicht“, erklärt Rahnama. „Ich kann einen Data Lake mit verschiedenen Interessengruppen nutzen. Oder ich kann ihn vollständig dezentralisieren und so etwas wie eine Blockchain oder einen anderen dezentralen Mechanismus verwenden, um weiterhin die Allianz zu bilden. Aber eben auf dezentrale Weise.“

Abbildung 1: Die zentralen Unterschiede von Data Hub und Data Lake.

Wenn zahlreiche Unternehmen Zugang zu einem kommunalen Data Lake erhalten, kombiniert dies zum Beispiel sowohl einen Data Lake als auch einen Data Hub in einer Lösung. Das erhöht die Anzahl der teilnehmenden Unternehmen, beeinträchtigt die Zugänglichkeit zu den Data Lakes aber kaum.

Anwendungsfälle für Data Hubs und Data Lakes

Beide Modelle reduzieren Datensilos, da sie so gebaut sind, dass sie für alle Geschäftsbereiche zugänglich sind, die auf die gleichen Daten zugreifen.

Der mehrstufige Ansatz eines Data Hubs ist beliebt für Anwendungsfälle, bei denen mehrere Interpretationen derselben Daten erforderlich sind. Beispielsweise lassen sich damit ähnliche Daten einerseits für Marketing- und andererseits für Finanzanwendungen analysieren. Dies macht Data Hubs bei Unternehmen beliebt, welche die gleichen Daten für Kundenservices und Betrugserkennung verwenden.

Da Data Lakes so konzipiert sind, dass Daten gespeichert werden, bis sie benötigt werden, sind sie bei Unternehmen mit einem weniger dringenden Datenbedarf tendenziell beliebter. Data Lakes sind besonders populär zum Speichern von IoT-Daten und Archivdaten. In einem Data Lake gespeicherte aktive Archivdaten können von Data Scientists für branchenübergreifende Forschungsarbeiten, einschließlich Gesundheitswissenschaften, verwendet werden.

Da Data Lakes und Data Hubs unterschiedliche Bedürfnisse erfüllen und kombinierbar sind, muss man je nach Anwendungsfall entscheiden, was sich besser eignet.

Data Hub versus Data Lake: Wie unterscheiden sie sich?

Data Lake und Data Hub sind Konzepte für das Datenmanagement, die sich konträr gegenüberstehen. Hier sind die Hauptunterschiede zwischen den beiden Optionen.

Was ist ein Data Lake?

Was ist ein Data Hub?

Data Hub versus Data Lake

Anwendungsfälle für Data Hubs und Data Lakes

Erfahren Sie mehr über Big Data

Data Lake

On-Premises versus Cloud Data Warehouses: Vor- und Nachteile

Microsoft Fabric: KI-Lösung für die Datenanalyse

Ein kurzer Preisüberblick von Azure Data Lake Storage