Microsoft Azure Data Lake
Microsoft Azure Data Lake ist ein hochskalierbarer Storage- und Analytics-Service, der in der Public Cloud von Microsoft gehostet wird. Genau wie andere Data Lakes erlaubt Azure Data Lake Entwicklern, Wissenschaftlern, Managern und anderen Nutzern Erkenntnisse aus großen, komplexen Datenbeständen zu gewinnen. Hierzu schreiben Anwender entsprechende Abfragen, die dann verarbeitet werden, um die Ergebnisse zu generieren. Da Azure Data Lake ein Cloud-Service ist, bietet er den Kunden eine schnelle und effiziente Alternative zur Bereitstellung und Verwaltung großer Datenbestände innerhalb des eigenen Rechenzentrums.
Wie bei den meisten Data-Lake-Angeboten besteht auch der Azure-Service aus zwei Teilen: Storage und Analytics. Dabei können die Anwender enorme Mengen an strukturierten, halbstrukturierten oder unstrukturierten Daten in dem Data Lake speichern – egal von welcher Anwendung sie generiert wurden. Das reicht zum Beispiel von kleinen, zeitkritischen Transaktionsdaten bis hinauf zu umfangreichen Datenarchiven.
Laut Microsoft lassen sich im Azure Data Lake Daten im Umfang von wenigen Terabytes bis hin zu mehreren Exabytes konfigurieren. Außerdem bietet der Storage-Service einen sehr großen Datendurchsatz, was eine besonders schnelle Datenverarbeitung erlaubt.
Für die Datenanalyse können Data-Lake-Benutzer eigenen Code für spezielle Transformations- und Analyseaufgaben erstellen. Zur Abfrage von Datenbeständen lassen sich auch vorhandene Tools, wie Microsofts Analytics Platform System oder Azure Data Lake Analytics, verwenden.
Der Azure Data Lake basiert auf der Cluster-Management-Plattform Apache Hadoop YARN (Yet Another Resource Negotiator) und lässt sich dynamisch innerhalb der Azure Public Cloud skalieren. Auf diese Art können dann auch die Anforderungen von großen, rechenintensiven Datenprojekten erfüllt werden.
Eigenen Code können die Anwender für den Azure Data Lake beispielsweise in U-SQL schreiben, bei der die SQL-Struktur mit dem benutzerspezifischen Code zusammengefügt wird. Das ermöglicht den Benutzern Analytics auch übergreifend auf den SQL-Servern in Azure, der Azure SQL Database und Azure SQL Data Warehouse laufen zu lassen. Gleichzeitig wird damit der Datenzugriff auf die meisten Azure-Datenquellen vereinheitlicht.
Die Preiseliste für den Azure Data Lake enthält zahlreiche Komponenten, wie Speicherkapazität, die Anzahl der Analytics Units (AUs) pro Minute, Anzahl ausgeführter Aufträge sowie die Kosten für die gemanagten Hadoop- und Spark-Cluster. Mit dem Azure Preisrechner können die genauen Kosten eines Data Lakes ermittelt werden.