Zehn Best Practices für Graph Data Science (GDS)
Laut Gartner kommt bis 2025 bei 80 Prozent der Datenanalysen Graphtechnologie zum Einsatz. Graph Data Science (GDS) liefert die Grundlage für eine Vielzahl von Anwendungsfällen.
Graphdatenbanken liefern den Datenkontext, um Prozesse zu optimieren und zu automatisieren sowie prädiktive Vorhersagen zu treffen. Damit gehören sie zu den Basistechnologien für Machine Learning (ML) und künstlicher Intelligenz (KI). Use Cases wie Recommendation Engines und 360-Grad-Kundenanalysen sind hier wichtige Beispiele. Aber auch in der Betrugsaufdeckung oder im Risk Assessment kommt Graphtechnologie zum Einsatz.
Von Graphen zu Graph Data Science (GDS)
Das Prinzip von Graphdatenbanken ist schnell erklärt: Daten werden als Kreise (Knoten) dargestellt, die über Linien (Kanten) miteinander verbunden sind. Diesen lassen sich jeweils qualitative oder quantitative Eigenschaften zuordnen. Über das Knoten-Kanten-Prinzip lässt sich das Datenmodell beliebig erweitern – das ermöglicht auch die wirklichkeitsnahe Abbildung großer und komplexer Netzwerke.
Die Modellierung von Graphen ist allerdings nur die halbe Miete. Denn um echte Erkenntnisse aus Daten zu gewinnen, müssen sie analysierbar sein. An dieser Stelle kommt Graph Data Science (GDS) ins Spiel. Dabei handelt es sich um einen wissenschaftlich fundierten Ansatz, den Data Scientists nutzen, um Erkenntnisse aus den Beziehungen und Strukturen in Daten zu ziehen.
Zentrale Bereiche von GDS
GDS nutzt multidisziplinäre Arbeitsabläufe, die Abfragen, Statistiken, Algorithmen und ML umfassen. In der Regel lässt sich GDS in drei zentrale Bereiche unterteilen.
- Graphstatistiken liefern grundlegende Informationen über einen Graphen, wie die Anzahl der Knoten und die Verteilung der Beziehungen. Diese Erkenntnisse haben Einfluss darauf, wie komplexe Analysen konfiguriert und durchgeführt werden müssen – und wie die Ergebnisse zu interpretieren sind.
- Die Graphanalyse baut auf den Graphstatistiken auf, indem sie spezifische Fragen beantwortet und Erkenntnisse aus Verbindungen in vorhandenen oder historischen Daten gewinnt. Graphabfragen und Algorithmen werden bei der Graphanalyse in der Regel gemeinsam in sogenannten Building Recipes angewendet. Die Ergebnisse lassen sich wiederum direkt für die nächste Analyse verwenden.
- Graphgestützte ML und KI ist die Anwendung von Graphdatenbanken und Analyseergebnissen zum Trainieren von ML-Modellen oder zur Unterstützung probabilistischer Entscheidungen innerhalb eines KI-Systems. Graphstatistiken und -analytik werden häufig kombiniert angewendet, um bestimmte Fragen zu komplexen Systemen zu beantworten und die daraus gewonnenen Erkenntnisse zur Verbesserung der ML einzusetzen.
So einfach wie möglich: GDS as-a-Service
In den letzten Jahren ist das Interesse an Graphtechnologie – und damit an GDS – zunehmend gestiegen. Gab es anfänglich noch Zweifel hinsichtlich der Skalierbarkeit, können es heute native Graphdatenbanken problemlos mit umfangreichen und stark vernetzten Daten aufnehmen. Gleichzeitig sind Entwickler auf der Suche nach neuen Analysemethoden, um ML-Modelle zu trainieren und KI-Anwendungen auf das nächste Level zu heben. GDS gilt hier als vielversprechender Ansatz.
Auf technischer Seite kommt GDS in der Regel über eine entsprechende Plattform zum Einsatz, die im Idealfall über vier Komponenten verfügt:
- Unterstützung der transaktionalen Verarbeitung und der analytischen Verarbeitung von Graphdaten sowie der Visualisierung
- Graph Storage und Datenverarbeitung mit Datenmanagement- und Analysewerkzeugen
- Integrierte Tools einschließlich einer Bibliothek mit Algorithmen, einem gemeinsamen Protokoll und einer API
- eine intuitive Abfragesprache für hohe Benutzerfreundlichkeit und vielseitige Anwendungsszenarien
„Graph Data Science als Enterprise-Anwendung verfolgt meist klare, an den betriebswirtschaftlichen Erfolg gekoppelte Ziele.“
Alicia Frame, Neo4j
Zehn Tipps für erfolgreiche GDS-Projekte
Ein Blick auf die GDS-Checkliste kann helfen, mit der Konzeption eines GDS-Projekts zu starten und diese schließlich erfolgreich in einen Prototypen zu überzuführen.
- Prüfen Sie Ihren Anwendungsfall. Am Beginn von GDS steht die Frage, ob es sich beim geplanten Projekt tatsächlich um ein Graphproblem handelt. Lassen sich Daten sinnvoll als Knoten und Kanten abbilden? Welche Rolle spielen Datenverbindungen für den Use Case? GDS-Praxisbeispiele sowie Tutorials aus der Graph Community können hier Klarheit schaffen.
- Bestimmen Sie ein GDS-Team. Graphtechnologie ist für viele Neuland. Daher empfiehlt es sich, intern ein Team an Graph Data Scientists zu etablieren, die Geschäftsanforderungen in technische Anforderungen umsetzen. Neben IT und Datenwissenschaftlern sollten dabei auch Verantwortliche der strategischen Geschäftsführung mit am GDS-Projekt arbeiten.
- Identifizieren Sie den Mehrwert vernetzter Daten für Ihr Unternehmen. Graphtechnologie eignet sich für unterschiedlichste Anwendungsszenarien. Am vielversprechendsten sind Graphanwendungen jedoch dort, wo Datenkontext gefragt ist. Dazu gehören unter anderem relevante Empfehlungen im Online-Shop, die den Kundenservice anheben, oder exakte Supply-Chain-Prognosen, um die Time-to-Market von Produkten zu beschleunigen.
- Bewerten Sie den Ist-Zustand. Wo liegt das derzeitige Datenproblem? Welche Kosten entstehen durch Datensilos, langsame Abfragen und fehlenden Zugriff auf Informationen? Je spezifischer ein solcher Fragenkatalog ausfällt, desto besser. Wer zum Beispiel darlegen kann, dass Betrugsfälle den Umsatz drücken, stößt mit einem Knowledge Graphen zur Betrugsaufdeckung auf offene Ohren.
- Bewerten Sie den Soll-Zustand. GDS liefert einen völlig neuen Blick auf die eigenen Daten und eröffnet damit auch völlig neue Einsatzmöglichkeiten. Trotzdem sollte eine GDS-Anwendung auf eine klare Aufgabe beziehungsweise ein Ziel ausgerichtet sein. Zu den Evergreens gehören hier unter anderem Kosteneinsparungen, Umsatzsteigerung, neue Marktchancen, kürzere Markteinführungszeiten, höhere Kundenzufriedenheit und Risikominimierung.
- Führen Sie einen Proof of Concept (POC) durch. Bei GDS hängt die Wahl des Datenmodells und der Algorithmen stark von den Fragen ab, die es zu beantworten gilt. Sind Daten falsch modelliert oder fehlen wichtige Beziehungen lässt sich kein Kontext abfragen. Graph Data Scientists können hier wertvollen Input liefern, während Endanwender den Graphen traversieren und die UX bewerten.
- Holen Sie sich Graphakzeptanz von oben. Der Einsatz von neuen Technologien kann eine unüberwindbare Hürde im Approval-Prozess darstellen. Und obwohl Graphdatenbanken mittlerweile weite Verbreitung finden, sind sie in der C-Level möglicherweise noch unbekannt. Die realitätsnahe und interaktive Visualisierung von zuvor abstrakten Daten im Graphen kann helfen, den Mehrwert von GDS zu veranschaulichen.
- Definieren Sie die Vision Ihres GDS-Projekts. Verschiedene Teams haben oft unterschiedliche Ansichten darüber, in welche Richtung sich eine Graphinitiative weiterentwickelt. So muss Graphtechnologie nicht gleich im ersten Anlauf in eine KI-Anwendung münden. Es gilt, die Phasen einer GDS-Anwendung zu skizzieren und die damit verbundenen Ziele transparent zu kommunizieren.
- Machen Sie den ROI Ihrer GDS-Anwendung messbar. Da der Einsatz von GDS gänzlich neue Erkenntnisse zu Tage fördert, ist es nicht immer leicht, harte Fakten zu nennen. Neben messbaren Metriken wie höherer Performance, Flexibilität und Skalierbarkeit sowie Echtzeit-Analysen heißt es daher auch auf die qualitative Wertschöpfung von Graphen hinzuweisen (zum Beispiel Datendemokratisierung, einfache und intuitive Benutzung für die Mitarbeiter).
- Setzen Sie auf die Graph Community. GDS ist ein Prozess. Was als einzelnes Projekt in einem Bereich startet, kann neue, geschäftskritische Fragen für das gesamte Unternehmen aufwerfen. Gleichzeitig entwickelt sich Graphtechnologie und GDS mit großen Schritten weiter. Die Graph- und Data Scientist Community bietet hier einen guten Resonanzboden, um Ideen und Erfahrungen auszutauschen und auf dem neuesten Stand zu bleiben.
GDS als Enterprise-Anwendung verfolgt meist klare, an den betriebswirtschaftlichen Erfolg gekoppelte Ziele. Das schöne dabei: Unternehmen können sich Schritt für Schritt auf die GDS-Reise begeben, ihre Applikationen sukzessiv auf- und ausbauen und dabei in jeder Phase echten Mehrwert aus ihren Daten schöpfen.
Über die Autorin:
Alicia Frame ist Senior Director of Product Management bei Neo4j und dort für alle Themen rund um Graph Data Science verantwortlich. Gemeinsam mit ihrem Team arbeitet sie an der Weiterentwicklung der GDS-Plattform und unterstützt Kunden beim Connected Data Science-Projekten. Zuvor arbeitete die promovierte Bioinformatikerin u. a. als Datenexpertin bei BenevolentAI, Dow AgroSciences und der US-Umweltschutzbehörde EPA.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.