Definition

Google Cloud Dataproc

Google Cloud Dataproc ist ein gemanagter Service für die Verarbeitung großer Datensätze, wie sie in Big-Data-Projekten verwendet werden. Dataproc ist Teil des Public-Cloud-Angebots von Google.

Dataproc hilft Anwendern, große Datenmengen zu verarbeiten und umzuwandeln. Unternehmen könnten den Dienst beispielsweise nutzen, um Daten von Millionen von Internet-of-Things-Geräten (IoT) zu verarbeiten, um Produktions- oder Verkaufschancen aus Geschäftsdaten vorherzusagen oder um Log-Dateien zu analysieren, um potenzielle Sicherheitslücken zu erkennen.

Mit dem Dataproc-Service können Anwender verwaltete Cluster erstellen, die sich von drei bis zu Hunderten von Knoten skalieren lassen. Benutzer können Cluster nach Bedarf erstellen, sie für die Dauer der Verarbeitungsaufgabe verwenden und sie dann abschalten, wenn die Aufgabe abgeschlossen ist.

Benutzer können die Größe von Clustern auch auf der Grundlage der Arbeitslast, Budgetbeschränkungen, Leistungsanforderungen und vorhandenen Ressourcen festlegen. Es ist möglich, Cluster dynamisch nach oben oder unten zu skalieren – sogar während der Verarbeitung von Jobs. Benutzer zahlen nur für die Rechenressourcen, die während des Prozesses verbraucht werden.

Dataproc ist auf Open-Source-Plattformen aufgebaut, darunter

  • Apache Hadoop: unterstützt die verteilte Verarbeitung großer Datensätze in Clustern;
  • Apache Spark: dient als Motor für die schnelle, groß angelegte Datenverarbeitung;
  • Apache Pig: analysiert große Datensätze;
  • Apache Hive: bietet Data Warehousing und SQL-Datenbankspeicherverwaltung.

Dataproc unterstützt die nativen Versionen von Hadoop, Spark, Pig und Hive, so dass Benutzer die neuesten Versionen jeder Plattform sowie das gesamte Ökosystem der zugehörigen Open Source Tools und Bibliotheken nutzen können. Benutzer können Dataproc-Jobs in Sprachen entwickeln, die im Spark- und Hadoop-Ökosystem verbreitet sind, wie Java, Scala, Python und R.

Google Cloud Dataproc ist vollständig mit anderen Google-Cloud-Diensten integriert. Zu diesen Diensten gehören:

  • BigQuery: ein verwaltetes, Petabyte-großes Data Analytics Warehouse;
  • BigTable: ein NoSQL-Big-Data-Datenbankservice;
  • Google Cloud Storage: ein langlebiger und hochverfügbarer Object-Storage-Dienst;
  • Stackdriver Monitoring: ein Tool zur Überwachung der Cloud-Leistung und -Verfügbarkeit;
  • Stackdriver Logging: ein Tool zum Speichern, Durchsuchen, Überwachen und Erstellen von Warnmeldungen auf der Grundlage von Protokolldaten und Ereignissen.

Benutzer können über die Google-Cloud-Konsole, das Cloud Software Development Kit (SDK) oder Cloud Representational State Transfer (REST) Application Programming Interface (API) Cluster erstellen, verwalten und Spark- oder Hadoop-Jobs betreiben.

Google Cloud Dataproc kostet derzeit eine stufenweise Gebühr von 0,01 Dollar pro Stunde pro virtueller Maschine (VM), die im Dataproc-Cluster verwendet wird. Für andere Services, die an Dataproc-Projekten beteiligt sind, wie BigQuery und Bigtable, fallen zusätzliche Kosten an.

Dataproc wird in erster Linie von Data Scientists, Business-Entscheidern, Forschern und anderen IT-Experten genutzt.

Diese Definition wurde zuletzt im Juni 2021 aktualisiert

Erfahren Sie mehr über Cloud Computing