DamienArt - stock.adobe.com
Auswahlkriterien für Datenintegration und Datenverarbeitung
Moderne Data Pipelines sollen mit dem hohen Tempo der Geschäftsabläufe mithalten können. Dabei sollten aber auch anfallende Kosten und der tatsächliche ROI berücksichtigt werden.
Bei Einführung oder Erweiterung eines Data-Science- und Analytik-Programms setzen viele Unternehmen auf besonders angesagte und schnelle Tools für die Datenanalyseprozesse und Workflows. Dabei vergessen sie oft konsequent darüber nachzudenken, wie diese Tools im Unternehmen konkret genutzt werden sollen.
So wird für die erhoffte Schnelligkeit oft viel unnötiges Geld ausgegeben. Was am Ende bleibt, ist eine fragile Dateninfrastruktur mit hohem Wartungsaufwand. Die Frage ist also: Wie schnell ist schnell genug?
Kosten-Nutzen-Verhältnis: Mit dem Formel-1-Wagen zum Bäcker
Gerade im Zusammenhang mit Machine Learning (ML) ist die Auffassung weit verbreitet, dass alle Daten gestreamt und sofort verfügbar sein müssen. Das ist allerdings ein Irrglaube: Lediglich die Trigger-Daten müssen in Echtzeit vorhanden sein, die ML-Daten nicht. Hier ist die schnellste und leistungsstärkste Lösung längst nicht immer auch die effektivste. Wer braucht schon einen Formel-1-Rennwagen, um damit zum Bäcker zu fahren?
Letztendlich geht es auch bei der Frage nach der Geschwindigkeit um das Kosten-Nutzen-Verhältnis: Wer sich die schnellste Lösung ins Haus holt, hat nicht selten auch mit der teuersten, empfindlichsten und hardwareintensivsten Anwendung zu kämpfen. Unternehmen sollten vielmehr darauf schauen, wie oft sie tatsächlich Entscheidungen auf Basis von ML-Modellen treffen.
Basierend auf diesen Zykluszeiten lässt sich eine Aussage über das benötigte Tempo machen: Werden Daten häufig oder regelmäßig für Geschäftsentscheidungen herangezogen, müssen sie dementsprechend schnell bereitgestellt werden.
Echtzeit im Umfeld von ML & KI
Die Definition von Echtzeit in der Datenintegration reicht von so bald wie möglich (ASAP) bis zu sofort und unmittelbar. In der IT zeigt der Begriff lediglich an, dass ein IT-System in einem vorgegebenen Zeitfenster reagieren muss. Wie groß dieses Zeitfenster ist, kann sich je nach Situation unterscheiden. Manche Situationen, zum Beispiel im Umfeld der Edge- oder bei IoT-Anwendungen, verlangen eine sekundenschnelle Aktualisierung. In anderen Fällen sind Minuten, Stunden oder sogar Tage schnell genug. Es kommt darauf an, ob die Daten von Menschen oder Computern genutzt werden.
Ein klassisches Beispiel für Echtzeit-Reaktionen ist das Internet. Während der Webseiten-Besucher im Online-Shop oder auf der Unternehmens-Webseite gemütlich surft, werden im Hintergrund kontinuierlich Daten ausgewertet, Klicks gesammelt und Suchverläufe gespeichert, um passende Inhalte und Produkte anzeigen zu können und den potenziellen Kunden bei Laune zu halten. Das Laden der Webseite sowie die Bereitstellung von sogenannten Recommendations (zum Beispiel Dieses Produkt könnte Sie auch interessieren) darf nur Millisekunden dauern. Andernfalls springt der Besucher genervt ab und die Customer Journey ist zu Ende.
Hier müssen die Daten tatsächlich in Echtzeit in die Systeme fließen – ähnlich wie Strom aus der Steckdose. Auch im Bereich Betrugsaufdeckung und Compliance-Management in Banken und Versicherungen zählt jede Sekunde. Algorithmen durchlaufen hier in Höchstgeschwindigkeit komplexe Datensätze, um Kreditkartenbetrüger oder verdächtige Transaktionen mit Wertpapieren, Geldern oder Bitcoins rechtzeitig aufzuspüren und Alarm zu schlagen. Während solche computergestützten Entscheidungsmodelle ablaufen, greifen Menschen kaum noch in die ML-Verfahren ein.
Einen Gang runter schalten: Batch-Verarbeitung
Dort, wo Menschen in die Datenaufbereitung eingreifen, können Unternehmen einen Gang runter schalten – und damit erhebliche Kosten und Ressourcen einsparen. In vielen Fällen ist eine Batch-Verarbeitung von Daten völlig ausreichend. Vertriebsteams, die ihren wöchentlichen Status abrufen, brauchen keine sekundengenaue Auskunft. Batch-Verarbeitung darf hier durchaus einige Minuten (oder sogar Stunden) bis zur nächsten Aktualisierung dauern.
Echtzeit versus Batch-Verarbeitung schließen sich nicht gegenseitig aus. Manchmal reicht ein schneller Snapshot mit nicht validierten Daten völlig aus. Für bereinigte, validierte und strukturierte Daten kann dann ein anderer Datenstrom genutzt werden. So können die Daten eines Energie- und Versorgungsunternehmens beispielsweise unterschiedlichen Anforderungen dienen: Kunden, die ihren Energieverbrauch in Echtzeit überwachen müssen, werden unverarbeitete Echtzeitdaten nutzen wollen.
Für das Abrechnungssystem reicht es hingegen aus, die Daten stündlich abzurufen, um sie mit den aktuellen Energiepreisen abzugleichen. Die Daten für die Abrechnung zum Monatsende wiederum müssen gründlich geprüft und validiert werden, damit die Rechnungen der Kunden keine abweichenden Datenpunkte und keine ungenauen Messwerte aufweisen. Je umfangreicher die Analysen sind und je größer das gewünschte Bild ist, umso wichtiger sind für das Data-Science-Team bereinigte, validierte und strukturierte Daten.
Checkliste: Wann ist Echtzeit gefragt
Um beurteilen zu können, wie schnell Daten im Rahmen von Analysen und der Entscheidungsfindung tatsächlich vorliegen müssen, empfiehlt es sich, eine Reihe von Kriterien im Vorfeld zu prüfen:
1. Das Ergebnis zählt
Wie werden die Daten erfasst und analysiert? Wie häufig werden Entscheidungen anhand der Daten getroffen? Wer trifft die Entscheidungen: ein Mensch, eine Gruppe von Menschen oder ein Algorithmus? Die Antwort auf diese Fragen gibt Auskunft darüber, wie schnell die Daten verarbeitet werden müssen. Wenn Menschen an der Aufbereitung der Daten beteiligt sind, kann der gesamte Prozess Stunden oder Wochen dauern. Unter diesen Umständen hat in einem solchen Fall eine Verkürzung der Datenverarbeitung um wenige Minuten keinen nennenswerten Einfluss auf die Entscheidungsqualität.
2. Echtzeit definieren
Welche Tools sind dafür gut geeignet? Welche Anforderungen werden an Einarbeitung, Funktionalität, Kosten und Zuverlässigkeit gestellt? Nach einer eingehenden Bewertung bleiben normalerweise zwei oder drei Systeme übrig, die die Anforderungen an die Verarbeitung in Echtzeit und im Batch-Verfahren gleichermaßen erfüllen. Das nächste Augenmerk sollte dann darauf liegen, wie die definierten Aufgaben mit den Anforderungen der verschiedenen Teams und der Funktionalität der jeweiligen Tools korrelieren.
3. Bedarf abklären
Wer ist der Entscheidungsträger für diesen Prozess? Wie häufig und mit welcher maximal zulässigen Latenz werden die Daten abgerufen? Welche Prozesse verlangen möglichst schnell unverarbeitete Daten und welche eine gründlichere Analyse? Hier kommen wieder die zuvor genannten Bedenken mit Blick auf Lösungen, die sich vornehmlich durch Schnelligkeit auszeichnen in Spiel. Welche Nachteile ergeben sich dadurch bei Kosten und Wartungsbedarf? Die Aufschlüsselung dieser Anforderungen benötigt initial zwar etwas Aufwand, spart in der Praxis aber Geld und macht die Systeme effektiver.
4. Anforderungen skizzieren
Wie sind die jeweiligen Phasen des Prozesses beschaffen? Was soll aus den Daten extrahiert werden? Wie werden die Daten umgewandelt und wo sollen die Daten genutzt werden? Suchen Sie nach Möglichkeiten Rohdaten zu sammeln, bevor Sie mit der Umwandlung beginnen. Ein Universalkonzept ist auf lange Sicht möglicherweise unnötig komplex und trotzdem nicht frei von Einschränkungen. Die Lambda-Architektur ist ein gutes Beispiel für eine Plattform, bei der zunächst ein modernes Batch-Time-Warehouse aufgebaut und dann später ein Echtzeit-Streaming-Service hinzugefügt wird.
5. Latenzzeit/Zykluszeit der Datenverarbeitung
Die Latenzzeit bei Datenbewegungen ist nur ein Faktor, um die Gesamtzeit zu evaluieren, die es braucht, bis ein bestimmtes Ergebnis erzielt ist. Der andere Faktor ist die Verarbeitung. Halten Sie den Zeitaufwand fest zwischen der Erfassung eines Ereignisses, der Verarbeitung und möglichen Umwandlung dieser Daten, der Ausführung des Analysemodells und der Darstellung der Daten. Ermitteln Sie anhand dieser Zykluszeit, wie schnell Sie Entscheidungen treffen können (oder müssen).
„Wer seine Daten als Kapital betrachtet und sie mit Bedacht einsetzt, kann genau an den Stellen sein Tempo erhöhen, wo es nötig ist.“
Tobias Knieper, Fivetran
Die Verwaltung von Data-Science- und Analytik-Programmen setzt immer einen gewissen Aufwand voraus. Zumal immer mehr Abteilungen mit ML und KI arbeiten und den entsprechenden Output benötigen. Wenn Unternehmen Echtzeit nach einem ausgeprägt analytischen Ansatz definieren, können sie ihre Geschäftsziele erreichen und gleichzeitig ihre Kosten minimieren. Im Laufe der Zeit nimmt das Vertrauen in die Daten zu und die Prozesse können weiter optimiert werden.
Ressource Zeit mit Bedacht einsetzen
Letztendlich gibt es für Data Science kein Universalkonzept. Qualifizierte Analysten und versierte Mitarbeitende im Allgemeinen sind ein knappes Gut. Das gilt in gewisser Weise auch für Rechenleistung und Speicherplatz. Diese Ressourcen sollten mit Bedacht und Effektivität eingesetzt werden. In dieser Hinsicht kann Zeit die Ressource sein, die Unternehmen in ausreichender Menge zur Verfügung steht.
Wer überall auf Echtzeit setzt, scheitert nicht selten. Die Verarbeitung in einer einzigen Pipeline ist problematisch: zu viele Komplexitäten, zu viele Veränderungen, zu viele Transformationen. Ein Unternehmen, das seine gesamte Dateninfrastruktur auf Echtzeit auslegt, braucht für die Administration seiner Systeme eine Boxen-Crew wie ein Formel-1-Team. Entsprechend teuer können dann Echtzeit-Systeme werden, die Routine-Updates erledigen. Wer aber seine Daten als Kapital betrachtet und sie mit Bedacht einsetzt, kann genau an den Stellen sein Tempo erhöhen, wo es nötig ist.
Über den Autor:
Tobias Knieper ist Marketing Lead DACH bei Fivetran.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.