phonlamaiphoto - stock.adobe.com

Fünf Tipps für die KI- und datengestützte Transformation

Unternehmen haben, nicht zuletzt durch neue Technologien, die Möglichkeiten intelligenter Datenauswertung erkannt. Eine wichtige Rolle spielt dabei künstliche Intelligenz.

Die Weltwirtschaft befindet sich in einem rasanten Wandel, in dem sich traditionelle Geschäftsmodelle quasi über Nacht verändern. Die COVID-19-Pandemie hat weltweit Unternehmen dazu gezwungen, sich digital zu transformieren und neue Wege zu beschreiten. Lieferketten mussten neu geordnet, Arbeitsprozesse neu organisiert werden.

Viele dieser Veränderungen sind von Dauer. Unternehmen modernisieren ihre Geschäftsmodelle und -prozesse, um sie zukunftssicher zu machen. Sie haben, nicht zuletzt durch neue Technologien und Konzepte, die Möglichkeiten einer intelligenten Datenauswertung erkannt, um Innovationen voranzutreiben, alte Geschäftsmodelle zu transformieren und neue zu erschaffen. Eine wichtige Rolle in diesem Zusammenhang spielt die künstliche Intelligenz (KI).

Das Datenökosystem hat sich in den letzten Jahrzehnten erheblich weiterentwickelt – von Data Warehouses in den 1980er Jahren über Enterprise Data Lakes in den frühen 2000er Jahren bis hin zum Aufstieg des Date-Lakehouse-Konzepts. Kern des Lakehouse-Ansatzes ist es, mit künstlicher Intelligenz und Machine-Learning-Daten so aufzubereiten und zu vereinheitlichen, dass deren Auswertung schneller und leistungsfähiger wird. Letztlich geht es darum, so viele richtige und wichtige Erkenntnisse wie möglich aus den Daten zu ziehen.

Im Folgenden werden fünf Wege vorgestellt, wie Unternehmen diese Symbiose aus Warehouse und Data Lake erfolgreich nutzen können, um intelligente Datenauswertungen in großem Umfang einzusetzen und ihr Unternehmen zu transformieren.

1. Implementierung und Business Value

Zu Beginn einer KI-gesteuerten digitalen Transformation setzen sich die meisten Unternehmen das übergreifende Ziel, ein Machine-Learning-first-Unternehmen zu werden. Dies ist ein großes Ziel und erfordert die Zustimmung und Unterstützung der Geschäftsleitung.

Sobald die Zustimmung dieser Stakeholder eingeholt wurde, kann die Transformation beginnen. Die Implementierung einer modernen Cloud-Datenarchitektur hilft dabei, Investitionen zukunftssicher zu machen und komplett auf die Cloud zu setzen. Früher konzentrierten sich Unternehmen auf einen primären Cloud-Anbieter, aber angesichts aktueller Einschränkungen, gesetzlicher Compliance-Anforderungen und der Wettbewerbslandschaft bewegen sich immer mehr Unternehmen in Richtung einer Multi-Cloud-Lösung, um Workloads in den Cloud-Umgebungen ihrer Wahl zu verteilen und auszuführen.

Die Konzentration auf eine rein technologische Transformation reicht nicht aus, um den Wandel zu festigen, auch die Arbeitsweise der Teams muss sich ändern. Durch die Vereinheitlichung der verschiedenen Rollen im Unternehmen – Data Scientists, Data Engineers, Business Analysts und Experten aus den verschiedenen Fachbereichen – kann gemeinsam mit demselben Datensatz gearbeitet werden, um den Geschäftswert durch wichtige Anwendungsfälle zu steigern. Dieser Kulturwandel ermöglicht es Unternehmen, datenorientierter zu werden.

2. Identifizierung und Priorisierung wichtiger Anwendungsfälle

Um sicherzustellen, dass Datenteams die wertvollsten Anwendungsfälle nutzen, müssen sich Geschäftsführung und IT-Verantwortliche auf die Architektur der Datenplattform, die KI-Ziele und -Ethik sowie den sicheren und leistungsstarken Zugang zu den richtigen Daten einigen.

Die richtige Priorisierung ist ein empfindliches Gleichgewicht zwischen offensiven und defensiven Anwendungsfällen. Dabei geht es bei den offensiven darum, den Umsatz und die Kundenakquise zu steigern und gleichzeitig die Betriebskosten zu senken.

Ein Beispiel für einen offensiven Anwendungsfall ist die Verwendung von KI für die Segmentierung des Kundenmarketings. Hier hilft KI den Kundenstamm zu vergrößern, wodurch der Umsatz erhöht wird. Die defensiven Anwendungsfälle hingegen sind dazu da, das Unternehmen vor erhöhten Risiken zu bewahren und die Einhaltung gesetzlicher Vorschriften zu gewährleisten, zum Beispiel der Einsatz von KI zur Überwachung von Clickstream-Ereignissen aus Mobile- und Web-Anwendungen, um Online-Betrug zu erkennen.

Indem Unternehmen regelmäßig eine Art Scorecard verwenden, um die aktuellen Anwendungsfälle zu messen, kann man deren strategische Bedeutung, Machbarkeit und ROI identifizieren. Es ist wichtig zu beachten, dass nicht jeder Anwendungsfall die gleiche Priorität hat, selbst bei gleichem Geschäftswert, da einige schwieriger zu implementieren sind oder andere Datensätze benötigen, die möglicherweise nicht so leicht verfügbar sind. Um mit intelligenten Datenanalysen erfolgreich zu sein, muss man nach Möglichkeiten für schnelle Fortschritte suchen, um daraus eine positive Eigendynamik entstehen zu lassen.

3. Data Governance und Compliance

Die bereits erwähnte Lakehouse-Architektur ermöglicht das Erstellen einer einzigen Berechnungsebene, mit der Datenaufbereitung und Governance effizienter und konsistenter durchgeführt werden können. Durch die Verwendung eines Standardsatzes von Programmier-APIs lässt sich eine selbstgetriebene Datenregistrierung aktivieren. Dieser Weg erlaubt viele der manuellen, fehleranfälligen Schritte zu automatisieren, die zur Erstellung eines robusten Datenkatalogs und zur Datenveredelung erforderlich sind. Dieser Aspekt ist besonders in großen Unternehmen wichtig, in denen Datenteams oft durch bürokratische Prozesse im Zusammenhang mit Data Governance und Compliance ausgebremst werden.

Besonders wichtig ist die Qualität der Daten. Das Ziel ist, die Regeln für die Datenqualität zu zentralisieren, damit das Team die Daten so schnell wie möglich bearbeiten kann, sobald sie im Data Lake ankommen. Ein Beispiel: Ein neu in das System eingegebener Datenpunkt ist in diesem Fall ein Geburtsdatum. Dieses Datum kann nicht als zukünftiges Datum aufgeführt werden, sonst würde die betroffene Person nämlich noch nicht geboren sein.

Umgekehrt kann das Datum auch nicht 140 Jahre in der Vergangenheit liegen, weil die Person dann nicht mehr leben würde. Die Einrichtung dieser Art von unternehmensweiten Datenqualitätsregeln auf einer Plattform, die sie automatisch ausführen kann, ist von zentraler Bedeutung.

4. Hochwertige Daten

Um sicherzustellen, dass Daten von hoher Qualität sind, müssen Data Teams auch deren Zeitwert in Betracht ziehen. Wenn ein Datenelement zum ersten Mal im Unternehmen eintrifft, hat es in diesem Moment einen sehr hohen Wert.

Wenn man sofort auf ein einzelnes Datenelement, zum Beispiel eine verdächtige Finanztransaktion, reagieren kann, ist man in der Lage Entscheidungen in Echtzeit zu treffen und beispielsweise Betrugsfälle zu erkennen. Der Wert individueller Daten nimmt mit der Zeit ab, weil sie nicht mehr relevant sind. Auf der anderen Seite werden aggregierte ältere Daten wertvoll, da sie wichtige Trends aufzeigen und dabei helfen können, Modelle, zum Beispiel zur Erkennung und Aufklärung von Betrugsversuchen, zu trainieren.

Um den Zugang zu qualitativ hochwertigen Daten zu ermöglichen, muss die Anzahl der Kopien von Daten innerhalb des Ökosystems minimiert werden. Allzu oft arbeiten Datenteams in geteilten Umgebungen mit Data Lakes und Enterprise Data Warehouses, was dazu führt, dass Kopien identischer Daten auf verschiedenen Plattformen liegen. Dieser Ansatz ist nicht empfehlenswert, da er den Risikobereich durch die Erstellung zusätzlicher Datenkopien vergrößert und es sehr schwierig ist, alle Daten auf dem gleichen Stand zu halten. Durch die Nutzung des Lakehouse-Ansatzes befinden sich alle Daten an einem Ort, was die Kosten minimiert und weniger Tools erfordert.

5. Build oder Buy

Damit schließlich alle Teile des Puzzles zusammenkommen, müssen die Vor- und Nachteile der Wahl eines Herstellerprodukts gegenüber der Entwicklung einer eigenen Lösung abgewogen werden. Jedes Mal, wenn man sich dazu entschließt, Entwicklungsressourcen für die Erstellung einer eigenen Lösung einzusetzen, wird man de facto zu seinem eigenen Softwareanbieter mit allen damit verbundenen Verantwortlichkeiten.

Chris D’Agostino, Databricks

„Jedes Unternehmen muss Risikomanagement betreiben, das hat die COVID-19-Pandemie eindrücklich aufgezeigt.“

Chris D’Agostino, Databricks

Der Vorteil ist, dass man die gesamte Produkt-und Plattform-Roadmap kontrollieren und Prioritäten setzen kann, welche Funktionen als nächstes entwickelt werden. Der Nachteil ist, dass man erhebliche Investitionen in die Rationalisierung der CI/CD-Pipeline tätigen muss. Nur so lässt sich sicherstellen, dass Änderungen und Korrekturen schnell umgesetzt werden können und eine detaillierte Dokumentation und Schulung für die Einbindung von Benutzern und neuen Entwicklern bereitgestellt wird – wobei natürlich auch die Kosten für das DevOps-Modell zu berücksichtigen sind.

Normalerweise interessieren sich Geschäftskunden und -partner und andere Teams, die sich auf die Plattform verlassen, um ihre Anwendungsfälle auszuführen und zu analysieren, weniger dafür, woher die Plattform stammt und wie sie entwickelt wurde. Sie konzentrieren sich eher darauf, wie schnell sie verfügbar sein wird, ob sie ihre Anwendungsfälle unterstützt und ob sie zuverlässig ist.

Fazit

Jedes Unternehmen muss Risikomanagement betreiben, das hat die COVID-19-Pandemie eindrücklich aufgezeigt. Daten sind die wertvollste Währung, die ihnen zur Verfügung steht. Sie steigern den Geschäftswert, senken die Kosten und schützen vor vielen Formen von Risiken, von denen einige nur durch KI selbst entstehen.

Technologien und Konzepte wie die Lakehouse-Architektur ermöglichen Datenteams eine effizientere Datenpipeline-Umgebung, sowie Rechenressourcen, die dynamisch nach oben und unten skaliert werden können. Sie erhalten eine vereinte Datenplattform, die darüber hinaus die festgelegten Kosten- und Data Governance-Richtlinien einhält.

Über den Autor:
Chris D’Agostino ist Global Principal Technologist bei Databricks.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Datenanalyse