Gorodenkoff - stock.adobe.com
Mit Lake Formation einen Data Lake auf AWS einrichten
Moderne Unternehmen müssen riesige Datenmengen organisieren. AWS Lake Formation unterstützt Analysten und Datenspezialisten bei der Big-Data-Verwaltung und -Analyse.
Unternehmen generieren heute große Mengen strukturierter und unstrukturierter Daten. Dies stellt ein ernstes Problem dar, da die Gefahr einer Datenüberflutung droht.
Moderne Unternehmen sammeln Daten aus unzähligen Quellen. Dazu gehören Protokolldateien ebenso wie Verkaufsunterlagen oder Daten aus sozialen Medien und IoT-Netzwerken (Internet of Things). Welche Daten zur Verfügung stehen, sollte ein Unternehmen heute unbedingt wissen. Ebenso sollte klar sein, wie die verschiedenen Datenquellen zusammenhängen. Und vor allem muss Entscheidungsträgern bewusst sein, wie diese vielfältigen Daten verwendet werden können, um neue Geschäftsmöglichkeiten zu entdecken und bessere Business-Entscheidungen zu treffen.
Unternehmen können diese Herausforderungen mit einem Data Lake lösen. Ein solcher Data Lake lässt sich bei Amazon Web Service (AWS) mit Lake Formation betreiben. Datenanalysten können diesen Managed Service nutzen, um große Datenmengen zu speichern, zu katalogisieren und zu transformieren. Die dort abgelegten Daten lassen sich dann für Aufgaben wie Analysen, Vorhersagen und maschinelles Lernen verwenden.
Schauen wir uns im Folgenden genauer an, wie Unternehmen mit AWS Lake Formation einen Data Lake nutzen können.
Data-Lake-Grundlagen
Während ein üblicher Data Lake lediglich eine große Menge an Daten speichern kann, bietet AWS Lake Formation mehr als nur reine Kapazität. Benutzer können die Kapazität in der Cloud mit Amazon S3 Buckets oder mit jedem beliebigen lokalen Storage Array implementieren. Der wahre Wert eines Data Lake liegt in der Qualität der darin enthaltenen Informationen.
Ein typischer Do-it-yourself Data Lake basiert auf einer Reihe eng integrierter Dienste, die die Datenqualität sicherstellen. Diese Dienste sammeln, verwalten, sichern und verarbeiten verschiedene Datensätze und präsentieren sie den Benutzern zur weiteren Analyse und Entscheidungsfindung.
In der Praxis haben IT-Teams häufig Schwierigkeiten, die erforderlichen integrierten Services zur Unterstützung eines Data Lakes zu implementieren und zu verwalten. Diese Dienste und Tools können eine breite Palette von Funktionen abdecken:
- strukturierte und unstrukturierte Daten aus mehreren Quellen aufnehmen;
- aufgenommene Daten deduplizieren und ihre Integrität überwachen;
- aufgenommene Daten in vorbereitete Partitionen innerhalb des Storage platzieren;
- Verschlüsselung und Schlüsselverwaltung integrieren;
- Authentifizierungs- und Autorisierungsmerkmale aufrufen und prüfen;
- Beziehungen oder Ähnlichkeiten zwischen Daten identifizieren, wie zum Beispiel übereinstimmende Datensätze; und
- Aufgaben zur Datentransformation definieren und planen.
AWS Lake Formation und andere Cloud-Data-Lake-Dienste sind bei der Koordinierung dieser Bemühungen besonders hilfreich, da alle diese Dienste bereits in den Data Lake integriert sind. Datenanalysten und Administratoren können sich somit darauf konzentrieren, Datenquellen zu definieren, Sicherheitsrichtlinien festzulegen und Algorithmen zum Verarbeiten und Katalogisieren der Daten zu erstellen. Sobald die Daten aufgenommen und vorbereitet wurden, können sie von Datenanalyse- und Machine-Learning-Diensten wie Amazon Redshift, Amazon Athena und Amazon Elastic MapReduce (EMR) für Apache Spark genutzt werden.
Wie AWS Lake Formation funktioniert
AWS Lake Formation übernimmt fünf Kernaufgaben, die für die Erstellung und Verwaltung eines Data Lakes von zentraler Bedeutung sind: Datenaufnahme, Katalogisierung, Transformation, Sicherung und Zugriffskontrolle.
Mit Lake Formation definieren Benutzer ihre gewünschten Datenquellen. Bevor die Daten aufgenommen werden, durchsucht der Dienst alle Quellen routinemäßig nach neuen oder geänderten Inhalten. Bereits während der Aufnahme werden die Daten katalogisiert, so dass diese um Tags wie Abfragebegriffe herum effizient verteilt, organisiert und korreliert werden. Die Ressourcen innerhalb eines Data Lakes zu katalogisieren ist wichtig, damit die Metadaten verwendet werden, um die Daten besser zu verstehen und zu lokalisieren.
Darüber hinaus transformiert Lake Formation routinemäßig Daten für die weitere Verarbeitung. Der Dienst kann redundante Daten deduplizieren und übereinstimmende Datensätze finden sowie Daten für Analyse-Tools wie Apache Parquet und Optimized Row Columnar neu formatieren.
AWS Lake Formation legt außerdem Wert auf Datensicherheit und Business Governance: Es unterstützt Unternehmen mit einer Reihe von Richtliniendefinitionen, die implementiert und durchgesetzt werden – selbst wenn der Dienst auf Daten zur Analyse zugreift. Lake Formation verfügt zudem über granulare Kontrollfunktionen, um sicherzustellen, dass nur berechtigte Benutzer auf Daten zugreifen können.
Um eine vollständige Data-Lake-Architektur zu erstellen, stützt sich AWS Lake Formation auf andere verwandte Dienste. Dazu gehört insbesondere Amazon S3, das als primäres Repository für den Service dient. S3 kann auch das Speicherziel für die Daten sein, die AWS Lake Formation aufnimmt, katalogisiert und transformiert. Beispielsweise speichern Data Scientists, die Analysen und Machine Learning in AWS durchführen, routinemäßig die Ergebnisse ihrer Arbeit in S3.
Abgesehen von grundlegenden Transformationen führt AWS Lake Formation selbst keine größeren Analysen durch. Stattdessen ist Lake Formation mit anderen AWS-Analytics- und Machine-Learning-Services gekoppelt – Amazon Redshift, Athena und EMR for Apache Spark. Dies erlaubt eine hohe Flexibilität bei der Analyse: Benutzer können auf diese Weise ihre bevorzugten Dienste einsetzen oder sogar Analyse-Tools oder -Plattformen von Drittanbietern wie Tableau nutzen.
Lake-Formation-Anwendungsfälle
Data Lakes wurden eingeführt, um Geschäftsdaten für die Weiterverarbeitung und Entscheidungsfindung durch andere Anwendungen und Dienste zu organisieren und vorzubereiten. Schauen wir uns einige typische Fälle an, in denen Branchen von AWS Lake Formation in Kombination mit Analyse- und Machine-Learning-Diensten profitieren.
Forschung. Wissenschaftliche Forschung wie die Genomik oder die Arzneimittelentwicklung generiert enorme Mengen an Testdaten. Für Menschen ist es jedoch kaum möglich, die unzähligen Faktoren zu korrelieren und die Wirksamkeit einer Wahl gegenüber einer anderen zu bewerten. Lake Formation kann wissenschaftliche Daten erfassen und mit Unterstützung von Analytics Hypothesen erstellen, frühere Annahmen oder Beziehungen anpassen oder widerlegen und die tatsächlichen Ergebnisse einer Testsuite ermitteln. Dies führt zu effizienteren Produkten.
Kundenanalyse. Unternehmen sammeln heute eine Vielzahl von Kundendaten. Dazu gehören etwa Daten von CRM-Systemen, Inhalte von sozialen Medien, Daten zur Kaufhistorie, Helpdesk-Tickettransaktionen, E-Mail- und Messaging-Verläufe und vieles andere mehr. Durch die Aufnahme und Katalogisierung all dieser Informationen in einen Data Lake kann ein Unternehmen vieles genauer untersuchen: Faktoren wie Kundendemografie und -standorte, die Ursachen für die Unzufriedenheit der Benutzer oder die besten Möglichkeiten zur Förderung der Kundenbindung.
Betriebsanalyse. Komplexe Fertigungs- und andere Industrieanlagen umfassen viele verschiedene Prozesse, die durch physikalische Faktoren wie Druck- und Temperaturbedingungen miteinander verbunden sind. Die Entwicklung des Internet der Dinge ermöglicht es Geräten, bisher nicht verfügbare Details über die industrielle Umgebung zu sammeln und bereitzustellen. Data Lakes können diese Daten speichern. Diese lassen sich dann verwenden, um bestimmte Bedingungen in der Fabrik mit den Produkt- oder Industrieergebnissen zu korrelieren – zum Beispiel die besten Bedingungen für eine starke Schweißnaht oder die effizienteste Art, eine Windkraftanlage zu positionieren.
Finanzanalyse. Finanzinstitute verwenden detaillierte Aufzeichnungen und Aktivitätsprotokolle, um zahlreiche Transaktionen auf der ganzen Welt zu verfolgen. In diesen Institutionen besteht ein wachsender Bedarf an finanzieller Sicherheit und Betrugsaufdeckung. Mit einem Data Lake können Unternehmen Transaktionsdaten in Lake Formation übertragen. Anschließend kann das Analyseteam nach möglichen betrügerischen Aktivitäten suchen – beispielsweise nach Käufen, die zu weit von einem Kontoinhaber entfernt getätigt wurden.
Alternativen zu Lake Formation
AWS Lake Formation ist nur eine Option unter vielen. IBM, Cloudera und Cazena bieten ihre eigenen Data-Lake-Services an, ebenso wie die Public-Cloud-Anbieter Microsoft und Google.
Azure Data Lake wurde entwickelt, um Petabyte-große Dateien und Billionen von Objekten mit Unterstützung von Analyse-Tools wie U-SQL, Apache Hadoop, Azure HDInsight und Apache Spark zu speichern und zu analysieren. Azure verwendet das Hadoop Distributed File System (HDFS) als wichtigstes Data-Lake-Speicherformat. Es bietet Kompatibilität zu anderen Open-Source-Analyse-Tools für strukturierte, semi-strukturierte und unstrukturierte Daten.
In ähnlicher Weise ist Google BigQuery ein hochverfügbarer Data-Warehouse-Dienst im Petabyte-Bereich mit einer In-Memory Business Intelligence Engine und integrierten Funktionen für maschinelles Lernen. BigQuery arbeitet mit den Cloud-Dataproc- und Cloud-Dataflow-Diensten von GCP zusammen. Diese lassen sich in andere Big-Data-Plattformen integrieren, um vorhandene Hadoop, Spark und Beam Workloads zu verwalten.
Preise und Verfügbarkeit von Lake Formation
AWS Lake Formation ist in nahezu jeder internationalen Region verfügbar. Für die Nutzung von Lake Formation fallen für AWS-Kunden keine zusätzlichen Kosten an. Um einen vollständigen Data Lake zu implementieren, erfordert Lake Formation jedoch die Interaktion mit zahlreichen anderen Amazon-Diensten. Für die Nutzung dieser mit Lake Formation verwandten Dienste – wie Amazon S3, AWS Glue, Amazon EMR und Amazon Cloudtrail – fallen zusätzliche Gebühren an.
Laut AWS kosten die meisten gängigen Data Lake Aufgaben weniger als 20 US-Dollar. Der Umgang Ihres Data Lakes und die entsprechenden Kosten steigen erst mit der Zeit, wenn Sie größere Datenmengen in S3 speichern, mehr AWS-Glue-Jobs ausführen und mehr Analyse-Tools verwenden. Sprunghaft erhöhen werden sich die Kosten nur dann, wenn auf die Ressourcen von mehreren Unternehmen oder Benutzern im Unternehmen zugegriffen wird. Um die mit AWS Lake Formation verbundenen Kosten zu verstehen, sollten Benutzer regelmäßig die monatlichen Gebühren für alle Dienste überprüfen, die zur Unterstützung der Implementierung des Data Lake-Dienstes verwendet werden.