cherezoff - stock.adobe.com

Fünf Best Practices für die Verwaltung von Echtzeitdaten

Echtzeit-Datenintegration und traditionelle Datenintegration unterscheiden sich. Doch was muss man beachten? Best Practices für Echtzeit-Datenintegration.

Unternehmen beginnen damit, eine Vielzahl von Echtzeit-Datenströme als Teil ihrer Datenmanagementinfrastrukturen zu verwenden. Dies reicht von extrem hochfrequenten Marktdaten bis hin zu weniger häufigen Aktualisierungen wie IoT-Messwerten, Wetterdaten oder Kundenzählungen.

Der Begriff Echtzeit ist dabei relativ. Eine autonome Fahrzeug- oder Trading-App hat eine viel geringere Toleranz gegenüber Verarbeitungsverzögerungen als Wetter-Anwendungen oder Fahrgastzähler. Die Verwendung all dieser verschiedenen Arten von Echtzeit-Streams eröffnet jedoch einen Paradigmenwechsel bei der Erstellung von Anwendungen, die im Vergleich zur traditionellen Batch-orientierten Datenintegration auf ständig wechselnde Dateneingaben reagieren können.

Diese Verschiebung schafft neue Herausforderungen. „Mit der Echtzeit-Datenintegration gibt es weniger Möglichkeiten, die Daten vollständig zu bereinigen und zu validieren“, sagt Tony Baer, Chefanalyst bei Ovum. „Das bedeutet, dass die harte Arbeit während des Streamins erfolgen muss, wobei die Herkunft der Daten und die Vertrauenswürdigkeit der Quellen sorgfältig verfolgt und dokumentiert werden müssen.“

Eigenschaften von Echtzeitdaten

Echtzeit-Datenintegration unterscheidet sich von traditioneller Datenintegration, da die Eigenschaften der Daten unterschiedlich sind. „Sie bewegen sich, sind schmutzig und temporär“, sagt Mark Palmer, Senior Vice President of Analytics bei Tibco.

Da sie sich in Bewegung befinden, benötigen Unternehmen eine Technologie für die Echtzeit-Datenaufbereitung, die traditionelle Extract, Transform, Load (ETL) -Technologien ergänzen. ETL kann weiterhin helfen, den Kontext aus Data-Warehouse-, Enterprise-Resource-Planning- oder Customer-Relationship-Management-Systemen zu laden. Im Gegensatz dazu kann die Echtzeit-Datenintegration helfen, dynamische Kontexte hinzuzufügen, die näher am Puls des Data Streamings sind, und zwar an der Edge mit Hilfe einer neuen Klasse von Edge-Computing-Architekturen.

Da die Daten „schmutzig“ sind, müssen Unternehmen Wege finden, die Stream-Verarbeitung zu nutzen, um Fehler zu korrigieren, auf der Grundlage von Streaming Windows zu aggregieren und Daten zeitnah zu glätten.

Da sie temporär sind, können Unternehmen kontinuierliche Abfragen implementieren, die auf Echtzeit- und historischen Daten basieren. Wenn zum Beispiel der Messwert eines Temperatursensors in einem fünfminütigen Sliding Window um mehr als fünf Prozent ansteigt, könnte eine Anwendung dies als eine Spitze bewerten. Eine Streaming-Abfrage könnte die geglätteten Daten verwenden, um falsche Messwerte zu eliminieren, und kontinuierlich über Sliding Windows laufen, um nach Übereinstimmungen mit historischen Mustern zu suchen.

Hier sind fünf Best Practices, die Datenmanagementprofis bei der Entwicklung von Echtzeit-Datenintegrationsstrategien befolgen sollten:

1. Die Integration simulieren

Echtzeit-Datenintegration erfordert mehr Vorab-Simulation und -Tests als traditionelle Datenintegration, sagt Palmer. Früher erstellten einige Trading Desks an der Wall Street einen neuen Handelsalgorithmus für Echtzeitdaten, testeten dessen Logik ein wenig und begannen mit dem Handel.

„Das funktioniert manchmal, aber Echtzeit reduziert beide Möglichkeiten", sagt Palmer. Knight Capital verlor 440 Millionen Dollar in weniger als 40 Minuten aufgrund eines Problems, das auf einem Datenfehler beruhte.

2. Echtzeit-Datenintegration nicht in alten Systemen einsetzen

Echtzeit sollte alte Batch-orientierte ETL-Anwendungen überwinden. „Zu oft sehen wir, wie Unternehmen Echtzeit nutzen, um die gleichen alten manuellen Systeme zu ‚beschleunigen‘,“ sagt Palmer. Dadurch entsteht für das Unternehmen ein größeres Durcheinander als zuvor.

Beispielsweise könnte das Managementteam eines Flughafens beschließen, die Echtzeit-Datenintegration zu nutzen, um seine Gate-Agent-Applikation neu aufzubauen. Obwohl dies dem Gate-Agenten Echtzeitdaten liefert, schafft es keine neuen Arten von Werten. Eine bessere Strategie besteht darin, den Fluggästen Echtzeit-Monitore zur Verfügung zu stellen, mit denen sie den Flugstatus selbst oder auf ihren Mobiltelefonen überprüfen können. Bei früheren Flughafenbetriebsdaten kam dieser Fehler häufig vor, sagt Palmer. Mittlerweile werden Echtzeit-Datenanwendungen auf der ganzen Welt eingesetzt.

3. Parallele Verarbeitung

Die Echtzeit-Datenintegration erfordert naturgemäß ein Echtzeitverhalten des Systems, das sie nutzt. In der Regel ist das Volumen der empfangenen Daten groß. „High-Speed und High-Volume stellen ein Problem für Systeme dar, die ursprünglich nicht für diese Herausforderungen entwickelt wurden“, erkärt Scott McMahon, Senior Solutions Architect bei Hazelcast, einer In-Memory Data-Grid-Plattform.

„Durch die Standardisierung von Datenquellen mit APIs und deren Anpassung an spezifische Prozesse können Unternehmen die Komplexität von Multiple Sources of Truth reduzieren und ihre Daten schnell unternehmensweit nutzbar machen.“
David ChaoMuleSoft

Der kritische Designansatz für den Umgang mit diesen Datenströmen besteht darin, hochparallel zu arbeiten und dabei mehrere parallele und koordinierte Aufnahme-Engines zu verwenden, die sich elastisch skalieren lassen, um die Verarbeitungsanforderungen der Daten zu erfüllen. Im Laufe der Jahre wurden viele Architekturprojekte mit unterschiedlichem Erfolg getestet. Die wirklichen Durchbrüche für die Verarbeitung der heutigen Hochgeschwindigkeits-Datenströme sind auf die jüngsten Fortschritte bei den Konzepten der parallelen Verarbeitung und Ausführung zurückzuführen.

Es gibt inzwischen einige Open-Source- und proprietäre Plattformen, die die harte Arbeit geleistet haben, um eine Processing Engine zu entwickeln, mit der sich hochparallele Konfigurationen ausführen lassen. „Die beste Vorgehensweise für Unternehmen, die neue Anwendungen für die Echtzeitberechnung entwickeln, ist, mit einer dieser Plattformen zu beginnen, um die bereits geleistete Arbeit zu nutzen und sich auf die eigene Anwendungslogik zu konzentrieren“, sagt McMahon.

So arbeitete Hazelcast beispielsweise mit einem Unternehmen zusammen, das die Omnichannel-Kommunikation mit seinen Kunden analysieren wollte. Um dies zu erreichen, normalisierten sie Nachrichten aus allen Kanälen und schickten sie über eine einzige Serveranalyseanwendung. Es funktionierte gut beim Testen, aber sobald es die volle Datenlast erhalten hatte, konnte die Hardware einfach nicht mehr mithalten. Da das System nicht für den Parallelbetrieb ausgelegt war, gab es keine Möglichkeit zur Skalierung. Sie mussten das System ausrangieren und neu konzipieren, um parallel ausgeführt zu werden.

4. Planen Sie den Ausfall von Komponenten

Eine große Herausforderung bei der Echtzeit-Datenintegration ist der Ausfall von Komponenten in einem Teil der Pipeline. „Wenn man es nicht richtig konzipiert, können Komponentenausfälle zu Datenverlust, veralteten oder fehlerhaften Daten und Systemausfällen führen“, sagt Venkat Krishnamurthy, Vice President of Product Management bei OmniSci, einer Analytics-Plattform auf GPU-Basis. Die Entkopplung jeder Phase der Pipeline und elastische Prozesse in jeder Phase tragen dazu bei, dass das System als Ganzes reibungsloser läuft.

5. Gebündelte Datenströme für bessere Einblicke

Echtzeit-Datenströme können nur dann einen Geschäftswert generieren, wenn Entwickler diese Daten in neue Anwendungen einbinden können. Ungenutzte Datenströme können Unternehmensdaten anreichern, aber auch schlechte Informationen liefern, wenn es keine Strategie gibt, um umsetzbare Erkenntnisse aus den Daten zu ziehen, sagt David Chao, Head of Industry Solutions bei MuleSoft. Um diese Herausforderungen zu bewältigen, benötigen Unternehmen zunächst einen klaren Überblick darüber, wo sich ihre Daten befinden und wie alle ihre Anwendungen, Systeme und Geräte interagieren.

Eine Strategie besteht darin, Datenquellen als APIs in einem Anwendungsnetzwerk zu bündeln, in dem alle Anwendungsdaten und -geräte als ansteckbare und wiederverwendbare Bausteine dienen. „Durch die Standardisierung von Datenquellen mit APIs und deren Anpassung an spezifische Prozesse können Unternehmen die Komplexität von Multiple Sources of Truth reduzieren und ihre Daten schnell unternehmensweit nutzbar machen“, erklärt Chao.

Nächste Schritte

Kostenloses E-Handbook: Enterprise-Software für die Datenintegration.

Datenintegration in Echtzeit.

Einsatzgebiete für Datenintegrationswerkzeuge.

Erfahren Sie mehr über Big Data