NicoElNino - stock.adobe.com
Wie Informatica den Zugang zu Analysen demokratisieren will
Informatica hat eine Spark-basierte Cloud Data Integration Engine präsentiert. Rik Tamm-Daniels von Informatica erläutert im Gespräch die Lösung und wofür sie sich einsetzen lässt.
Nach Angaben von Gartner sind 41 Prozent der IT-Mitarbeiter in Unternehmen nicht mehr nur Endanwender, sondern auch an der Bearbeitung und Anpassung von Datensätzen beteiligt. Analysten und Marktbeobachter beschreiben diese Entwicklung als Datendemokratisierung. Diesen Bereich möchte auch Informatica mit einer neuen Big-Data-Lösung erschließen.
Mitte März 2021 präsentierte das Unternehmen eine Datenintegrations-Engine, die mit dem Nvidia Rapids Accelerator für Apache Spark arbeitet. Die Plattform ermöglicht es Unternehmensanwendern, Big Data zu integrieren, zu bereinigen, zu verwalten und zu sichern. Das Tool bietet Konnektoren für Hunderte von Datenquellen und Echtzeit-Streaming. Dabei soll die Lösung aber nicht nur von Data Scientists und anderen Datenspezialisten eingesetzt werden, sondern auch von Mitarbeitenden aus anderen Fachbereichen.
Rik Tamm-Daniels, Vice President Strategic Ecosystems and Technology bei Informatica, beschreibt im Folgenden, was das neue Angebot auszeichnet und für welche Anwendungsszenarien es konzipiert ist.
Informatica führt eine Cloud-Data-Management-Lösung mit Nvidia Accelerated Computing für Apache Spark ein. Was ist Teil der Cloud Data Integration Engine?
Rik Tamm-Daniels: Informatica Cloud Data Integration basiert auf einer Microservices-gesteuerten Cloud-nativen Integration Platform as a Service der nächsten Generation. Sie ermöglicht Unternehmen, Hunderte von Anwendungen und Datenquellen On-Premises und in der Cloud zu verknüpfen. Darüber hinaus lassen sich Datenquellen in großem Umfang integrieren. Der Elastic Cloud Data Integration Service ermöglicht es der IT-Organisation, ihre Datentransformation mit elastischen Clustern oder kurzlebigen Kubernetes-Clustern zu verarbeiten. Elastic Cluster sind Compute-Cluster, die von einem sicheren Agenten verwaltet werden und das Cluster je nach Arbeitslast hoch oder runter skalieren. Dank des Nvidia Rapids Accelerator for Apache Spark sind Cluster deutlich leistungsstärker: Daten lassen sich fünfmal schneller als bislang verarbeiten.
Können Sie uns Details zur Architektur erzählen?
Tamm-Daniels: Die Informatica Intelligent Cloud Services basieren auf einer Cloud-nativen Architektur. Sie nutzen den Cloud-nativen Stack mit Informatica Innovationen auf der Spark-basierten Engine. Letztere läuft auf Kubernetes. Die Informatica Mappings können auf Public- und Private-Cloud-Infrastrukturen, Hybrid- und On-Premises-Umgebungen implementiert werden. Sie lassen sich auf CPUs und GPUs bereitstellen, um auf jeder Plattform zu laufen. Die zugrunde liegende Infrastruktur wird ebenso wie die Komplexität des Betriebssystems abstrahiert.
Informatica World 2021: Intelligent Data Management Cloud
Informatica hat auf seiner diesjährigen Hausmesse (13. bis 15. April 2021) die Cloud-native Datenmanagementlösung Intelligent Data Management Cloud (IDMC) vorgestellt. Mit dem Anbebot sollen Unternehmen ihre Daten Cloud- und Plattform-unabhängig verwalten können.
Herzstück ist die KI-Engine CLAIRE. Mit CLAIRE können Kunden Ihren Datenbestand verarbeiten, Aufgaben wie Stammdatenmanagement und Datenschutz automatisieren und Nutzeraktivitäten mit Empfehlungen versehen. Die IDMC stellt außerdem Low-Code-/No-Code-Features zur Verfügung, so dass auch Geschäftsanwender eigenständig Modelle erstellen, Daten analysieren und Erkenntnisse umsetzen können.
Laut Informatica führt die IDMC 18 Billionen Transaktionen pro Monat aus. Die Informatica Intelligent Data Management Cloud wird auf einem verbrauchsbasierten Preismodell abgerechnet. Preise erfahren Interessenten auf Anfrage. Weitere Informationen findet man auf der Webseite des Anbieters.
Für welche Anwendungsszenarien und Anwender ist das Angebot konzipiert?
Tamm-Daniels: Das Angebot eignet sich für alle Unternehmen, die Big Data und Machine Learning Workloads verarbeiten. Ein Beispiel: Ein Pharmaunternehmen möchte die Ergebnisse seiner klinischen Studien verarbeiten. Diese generieren enorme Datenmengen – bis zu einigen Terrabyte pro Tag. Diese Daten müssen transformiert und in ein Cloud Data Warehouse verschoben werden. Mit einer CPU dauert dies bis zu zwölf Stunden, eine GPU hingegen erledigt es in etwa einer Stunde. Auf diese Weise stehen Data Scientists die benötigten Daten direkt zur Verfügung. Sie müssen nicht mehr, wie bislang, einen weiteren Tag auf die Auswertung der Ergebnisse warten. Damit reduziert sich der Zeitraum bis zur Wertschöpfung signifikant.
Welchen Nutzen haben Anwender von der Lösung?
Tamm-Daniels: Die Vorteile für die Kunden liegen auf der Hand: Die Produktivität steigert sich, gleichzeitig lassen sich die Kosten sowie die Zeit bis zur Wertschöpfung reduzieren. Die Datenintegrations-Engine von Nvidia beschleunigt die Verarbeitung der Daten um das Fünffache. Diese werden dann in Analyse-, Machine-Learning- und Data-Science-Projekten verwendet.
„Informatica demokratisiert Daten, bietet jedoch auch integrierte Funktionen für Governance und Datenschutz.“
Rik Tamm-Daniels, Informatica
Informatica und andere Anbieter sprechen von der Demokratisierung der Datenverwaltung und Datenanalyse. Birgt dieser Zugang zu geschäftskritischen Daten nicht Risiken für den Datenschutz?
Tamm-Daniels: Informatica demokratisiert Daten, bietet jedoch auch integrierte Funktionen für Governance und Datenschutz. So können Administratoren beispielsweise konfigurieren, welche Personen im Unternehmen Zugriff auf die Daten haben.
Darüber hinaus lassen sich Governance und Datenschutz zu Beginn an in die Prozesse eines Unternehmens einbauen, um so Vorschriften wie die DSGVO und CCPA einzuhalten. Informatica bietet außerdem umfangreiche und intelligente Funktionen zur Datenmaskierung. Damit werden sensible Felder automatisch maskiert und Datenschutzfelder markiert. So ist gewährleistet, dass Unternehmen DSGVO, CCPA und andere gesetzliche Regularien einhalten
Wie ermöglicht die Lösung von Informatica und Nvidia den Datenzugriff über verschiedene Ebenen des Unternehmens hinweg?
Tamm-Daniels: Das Informatica-Serverless-Angebot demokratisiert den Zugang zu Datenanalysen und Data-Science-Projekten im großen Maßstab. Datenintegratoren, Ingenieure und Data Scientists können Daten-Pipelines planen, entwickeln und implementieren. So lassen sich Machine-Learning-Projekte im großen Maßstab operationalisieren. Informatica bietet eine benutzerfreundliche Benutzeroberfläche, die nicht auf Code basiert. Code-freundliche Lösungen unterstützen Anwender dabei, Integrations-Pipelines zu erstellen und zu nutzen. Das Ergebnis: Daten und Erkenntnisse könnten besser eingesetzt werden.
Welche Abonnementoptionen haben die Benutzer für die neue Lösung und wie viel kosten sie?
Tamm-Daniels: Informatica bietet eine verbrauchsbasierte Preisgestaltung, bei der die Anwender aus allen Cloud-nativen Diensten auswählen können. Mit den Kunden wird dann auf Grundlage der Nutzung abgerechnet.