Adrian Grosu - stock.adobe.com
Warum generative KI Graphtechnologie braucht
Large Language Model (LLM) KI-Systeme sind gut bei der Vorhersage von Texten. Sie halluzinieren aber auch manchmal. Das Training mit Wissensgraphen kann hier ein Korrektiv sein.
Nach dem Hype rund um ChatGPT in der ersten Jahreshälfte 2023, ist es an der Zeit, dass CIOs einen nüchternen Blick auf die Technologie werfen. Wie lassen sich generative KI (GenAI) und Large Language Models (LLM) im Enterprise-Umfeld einsetzen?
Unternehmen arbeiten mit deterministischen Daten. Das Problem der KI-Halluzination ist daher ernst zu nehmen. Versteht der Chatbot die an ihn gestellte Frage nicht, liefert der KI-Algorithmus gerne auch mal falsche oder erfundene Antworten. Für Anwendungsbereiche, in denen Systeme sicherheitskritische Anforderungen und hohe Datenqualität erfüllen müssen, sind solche Halbwahrheiten und kreativ zusammengewürfelte Informationshappen kaum akzeptabel.
Strukturierte Daten für das KI-Training
Um die Fehleranfälligkeit generativer KI zu reduzieren und ihre Genauigkeit zu erhöhen, können KIs anhand eines Sprachmodells aus hochgradig kuratierten und strukturierten Daten trainiert werden. An dieser Stelle kommen Knowledge Graphen (oder auch Wissensgraphen) ins Spiel, bei denen der Schwerpunkt auf dem kontextuellen Verständnis liegt. Sie organisieren Daten aus verschiedenen Quellen in einem Modell und erfassen dabei Informationen über Entitäten und deren Verbindungen (zum Beispiel Personen, Orte oder Ereignisse). Eines der bekanntesten Beispiele eines solchen Graphmodells ist ein U-Bahn-Fahrplan: Haltestationen werden als Knoten, die Zugverbindung zwischen ihnen als Kanten beschrieben. Algorithmen laufen diese Verbindungen ab, berechnen Fahrzeiten und Entfernungen oder die kürzeste Route zwischen zwei Punkten/Knoten.
Knowledge Graphen beschreiben die Zusammenhänge zwischen Entitäten in einem Format, das für Menschen intuitiv verständlich ist, aber auch von Maschinen gelesen werden kann. Das entscheidende für Anwendungen mit generativer KI ist allerdings, dass die Knowledge Graphen ein Organisationsprinzip für hochkomplexe, vernetzte Daten zur Verfügung stellen. Auf dieser Basis können Data Scientists sowie Computersysteme alle zugrunde liegenden und tatsächlich relevanten Daten für Abfragen heranziehen.
Graphen als Grenzsteine für LLM
Die Topologie des Knowledge Graphen trifft hier genau ins Schwarze: Sie bietet Struktur ohne dabei Komplexität beziehungsweise Datentiefe (Dimensionalität) einzubüßen. Struktur ist notwendig, um beispielsweise Large Language Models (LLM) Grenzen zu setzen und begründete, logisch nachvollziehbare Antworten mittels generativer KI zu erhalten. Zudem steigt dadurch die Transparenz und Rückverfolgbarkeit, da die Antworten des LLM anhand des Graphen überprüft werden können. Die Datentiefe wiederum stellt einen umfassenden Kontext sicher, um aus Daten Informationen und aus Informationen Wissen zu schaffen. In Kombination mit Graphalgorithmen und Graph Analytics (Graph Data Science) bieten Knowledge Graphen somit eine reichhaltige Quelle für maschinelles Lernen (ML) und das Trainieren von generativer KI.
Knowledge Graphen und LLM bilden dabei in mehrfacher Hinsicht ein starkes Paar. Die Graphen kuratieren den Lernprozess durch riesige Datenmengen, setzen klare Markierungen und Orientierungspunkte und verringern so das Risiko von Fehlern und Fantasieerzeugnissen.
Kontext statt Information Overload
Damit generative KI-Systeme relevante Antworten geben können, müssen sie den Kontext einbeziehen. Daten allein machen noch keinen Kontext. Vielmehr ist unter Kontext die Einbeziehung von Informationen aus unterschiedlichen Quellen gemeint, die für Entscheidungs- oder Antwortprozesse relevant sind. Im Graphmodell heißt das: alle relevanten Attribute, Datenbeziehungen und Knoten rund um eine Abfrage herum sind miteinander verknüpft.
Anders als in einem LLM sind Knowledge Graphen für diese Art von Verbindungen konzipiert. Diese kuratierten goldenen Beziehungen (Golden Records) können verhindern, dass LLMs Fehler machen. Außerdem lassen sich KI-Vorhersagen mit Graphen leichter nachvollziehen und erklären. Informationen lassen sich bis zu ihrer ursprünglichen Quelle zurückverfolgen – etwas, das ein immer wichtigeres Kriterium für die Erklärbarkeit von generativer KI wird.
Präzision statt Halluzination
LLMs arbeiten weniger nach einem festen Regelwerk als nach einem probabilistischen Verfahren: Sie trainieren in der Regel auf Grundlage eines großen Dokumentenkorpus (zum Beispiel im Internet), um vorherzusagen, was die wahrscheinlichsten Daten zur Beantwortung einer Anfrage sind. Im Fall von ChatGPT sind das zum Beispiel die Wörter und Sätze, die am häufigsten in einem ähnlichen Kontext im Internet zu finden sind und daher von der Maschine als am effektivsten angesehen werden. Vorhersagen können aber auch schlichtweg falsch sein. Um höhere Genauigkeit zu erzielen, werden den probabilistischen Schlussfolgerungen von LLMs die deterministischen Aussagen eines Knowledge Graphen zur Seite gestellt.
„Knowledge Graphen beschreiben die Zusammenhänge zwischen Entitäten in einem Format, das für Menschen intuitiv verständlich ist, aber auch von Maschinen gelesen werden kann.“
Dr. Jim Webber, Neo4j
Ein Knowledge Graphen gibt Auskunft darüber, wie stark bestimmte Informationen zusammenhängen, wo sich Gruppen und Muster innerhalb von Daten bilden, wie wichtig einzelne Verbindungen sind und wie sie sich gegenseitig beeinflussen. Diese zusätzlichen Informationen helfen beispielsweise, die Relevanz/Priorität von bestimmten Daten zu bewerten und die Vorhersagegenauigkeit zu verbessern – ohne dass zwangsläufig neue Daten hinzugefügt werden müssen. Die daraus abgeleiteten Regeln und Suchkriterien führen die generative KI zielsicher in die richtigen Bahnen beziehungsweise zu den richtigen Antworten.
Spezifisch statt universell
Es ist möglich, die Sprachmodelle zur Erstellung von Knowledge Graphen zu verwenden. Zunächst wird das LLM herangezogen, um große Mengen natürlicher Sprache zu verarbeiten. Im nächsten Schritt lässt sich aus dem Modell ein Knowledge Graph destillieren. Anders als das LLM, das wenig Transparenz aufweist, sind Daten in einem solchen spezifischen Graphen nachvollziehbar und bleiben offen für Schlussfolgerungen. Das wiederum ermöglicht ihren Einsatz auch in regulierten Branchen. In der Pharmaindustrie beispielsweise, wo die Fähigkeit, experimentelle Entscheidungen zu belegen, von größter Bedeutung ist, liefert der Knowledge Graph deterministische Antworten ohne Halluzinationen.
An Bedeutung gewinnen in diesem Zusammenhang Small Language Models (SLM). Im Vergleich zu ihren großen Brüdern lassen sich die kleineren Sprachmodelle deutlich schneller trainieren und verbrauchen dabei weniger Rechenleistung und damit Ressourcen. Das könnte es wiederum ermöglichen, generative KI-Anwendungen zukünftig ohne Performance-Verlust auf kleinere/mobile Geräte zu implementieren (zum Beispiel Smartphone).
Die Kombination aus Graphtechnologie und Sprachmodellen – egal ob groß oder klein – eröffnet neue Möglichkeiten für generative KI-Lösungen. Vor allem in Hinblick auf Transparenz, Genauigkeit, Erklärbarkeit und Nachverfolgbarkeit der KI-Systeme besteht hier dringend Nachholbedarf. Graphtechnologie bietet dazu eine Art Korrektiv-Rahmen, in dem sich sowohl behördliche Regulierungen als auch technische Sicherheitsvorkehrungen umsetzen lassen, ohne Innovationen rigoros auszuhebeln.
Über den Autor:
Dr. Jim Webber ist Chief Scientist bei Neo4j und Gastprofessor an der Universität Newcastle. Sein Spezialgebiet sind Graphdatenbanken, über die er in Büchern schreibt und auf der ganzen Welt in Vorträgen spricht.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.