sdecoret - stock.adobe.com

Generative KI: Data Governance bei ChatGPT & Co. umsetzen

Generative KI birgt enormes Potenzial für Firmen. Doch Risiken bei Datenqualität, Datenschutz und Datensicherheit bremsen Projekte aus. Eine gute Data Governance ist wichtig.

Ob Kundensupport, Datenanalyse, Suche am Arbeitsplatz oder Chatbots: Generative KI eignet sich für viele Einsatzgebiete. Laut einer aktuellen Umfrage von Elastic (PDF) halten 98 Prozent der Befragten generative KI für einen potenziellen Game Changer für ihr Unternehmen, aber nur 21 Prozent nutzen sie bereits regelmäßig. Dem Gartner-Hype-Zyklus zufolge befindet sich generative KI gerade am Gipfel der überzogenen Erwartungen und wird in Kürze auf dem Boden der Realität landen. Die Analysten rechnen damit, dass die Technologie erst in zwei bis fünf Jahren wirklich auf dem Produktivitäts-Plateau ankommt.

Doch wer sich einen Wettbewerbsvorteil verschaffen will, sollte nicht so lange warten, sondern jetzt mit einem Projekt starten. „Wer jetzt beginnt, Projekte mit generativer KI umzusetzen, kann damit in spätestens zwölf Monaten auf dem Markt sein“, sagt Stefanos Katsios, Head of Business Line Big Data Analytics & IoT bei SVA System Vertrieb Alexander GmbH, Partner von Elastic. Mit seinem über 350 Personen starken Team hat die SVA schon viele erfolgreiche Projekte umgesetzt. Die größte Hürde sieht er in einer guten Data Governance: „Der Algorithmus ist hier gar nicht der entscheidende Faktor. Bedeutend wichtiger für eine erfolgreiche Umsetzung ist eine funktionierende Data Governance, besonders in einem so stark regulierten Markt wie Deutschland.“

Warum Data Governance bei KI-Projekten so wichtig ist

Unter Data Governance versteht man Richtlinien, Prozesse und Methoden, die regeln, wie das Unternehmen mit Daten umgeht. Das Ziel besteht darin, sowohl die Qualität als auch die Integrität, Vertraulichkeit und Sicherheit der Daten zu gewährleisten. Viele der Herausforderungen bei Large Language Models (LLM) drehen sich um Daten, da diese das Herz der KI bilden. Ein Chatbot ist jedoch nur so gut wie die Daten, mit denen er trainiert wird. Möchte man LLMs wie ChatGPT oder Google Gemini/Bard im Unternehmenskontext einsetzen, wird eine schlechte Datenqualität zum Problem. Denn zum einen sind die Modelle möglicherweise nicht mit den richtigen Daten trainiert worden und halluzinieren unter Umständen, wenn sie eine Antwort nicht kennen. Zum anderen fehlen öffentlich zugänglichen LLMs unternehmensspezifische Informationen, die relevante Antworten liefern könnten. Unternehmen müssen daher in Technologien investieren, die es ihnen ermöglichen, eine Brücke zwischen internen und externen Daten zu schlagen. Damit ein HR-Chatbot zum Beispiel Mitarbeiterfragen zu internen Personalprozessen beantworten kann, muss man ihn erst mit den entsprechenden Daten füttern, wie zum Beispiel HR-Richtlinien, dem Verhaltenskodex des Unternehmens oder spezifischen funktionsbezogenen Informationen. Möglich wird das durch die RAG-Technologie (Retrieval Augmented Generation), die die Texterstellung mit Informationen aus interne Datenquellen ergänzt, um den erforderlichen Unternehmenskontext zu liefern. Auf der Grundlage einer soliden Datenbasis kann eine suchbasierte KI-Plattform mit Hilfe von RAG die Datenbank abfragen, um die relevantesten Daten für die Weitergabe an das LLM zu finden.

Datenschutz und Datensicherheit

Das führt zur nächsten großen Herausforderung: Unternehmen müssen sicherstellen, dass sensible Daten nicht in öffentliche LLMs eingespeist werden und jedem Nutzer nur die Inhalte angezeigt werden, die er sehen darf. Das ist nicht einfach, denn Arbeitnehmer, die keinen Zugang zu einer unternehmensinternen Anwendung haben, weichen oftmals auf öffentliche LLMs aus.

Jörg Hesske, Elastic

„Unternehmen müssen kontrollieren und reglementieren, welche Daten in das KI-Modell einfließen – und welche Inhalte an wen ausgespielt werden.“

Jörg Hesske, Elastic

Grundsätzlich fließt dabei alles, was ein Anwender beispielsweise bei ChatGPT eingibt, in das KI-Modell ein und wird für dessen Training verwendet. Dadurch kann es passieren, dass der Chatbot die Informationen an anderer Stelle wieder ausgibt. Solche Sicherheitsverletzungen sind kein Einzelfall. Laut einer Untersuchung der OWASP Foundation (Open Worldwide Application Security Project) zählt die versehentliche Preisgabe von sensiblen Daten zu den Top-Ten-Schwachstellen in LLM-Applikationen. Um dieses Risiko zu mindern, empfiehlt die OWASP eine gute Datenhygiene und strenge Benutzerrichtlinien.

Kontrollfunktionen in vier Schritten umsetzen

Unternehmen müssen kontrollieren und reglementieren, welche Daten in das KI-Modell einfließen – und welche Inhalte an wen ausgespielt werden. Folgendes Vorgehen ist empfehlenswert:

  1. Hilfreich ist zunächst die Erstellung eines KI-RACI-Diagramms für das Unternehmen, um Verantwortlichkeiten zu klären: Wer ist verantwortlich? (Responsible), Wer ist rechenschaftspflichtig? (Accountable), Wer sollte konsultiert werden? (Consulted) und wer sollte informiert werden? (Informed).
  2. Außerdem ist es wichtig, KI-Risiken zu dokumentieren, eine Risikobewertung vorzunehmen und die damit einhergehende Governance-Verantwortung innerhalb des Unternehmens abzuklären.
  3. Unternehmen sollten Richtlinien zur Datenverwaltung sowie zur technischen Implementierung festlegen. Ein wichtiger Punkt dabei ist die Implementierung von Anwendungsbeschränkungen. Folgende Fragen sind hier relevant:
    ● Welche Daten sind im Unternehmen vorhanden? Welche Daten dürfen öffentlich zugänglich sein, welche nur für bestimmte Nutzer? Welches Schutzniveau erfordern die Daten? Mithilfe dieser Fragen lassen sich die besonders sensiblen Ressourcen identifizieren und entsprechend klassifizieren.
    ● Welche Personen oder Personenkreise sollen Zugang zu den Daten haben? Vielleicht sind manche Informationen zum Beispiel nur für das Management, bestimmte Abteilungen oder einzelne Nutzer gedacht.
    ● Sind die richtigen IT-Lösungen für die Umsetzung von rollenbasierten Regeln im KI-Modell vorhanden? Eine entsprechende IT-Technologie sollte es ermöglichen, Rollen und Rechte mithilfe von RBAC (Role-Based Access Control) umzusetzen. So können die Verantwortlichen Anwender und Anwendergruppen autorisieren, indem sie ihnen bestimmte Rollen zuweisen. Jeder Nutzer erhält dadurch nur die Rechte, die seiner Rolle entsprechen und so die entsprechenden Ergebnisse.
  4. Außerdem sollten Datenschutzrichtlinien aktualisiert, KI-Richtlinien eingeführt und Mitarbeitende darin geschult werden, wie das System zu verwenden ist und welche Daten besonders schützenswert sind und daher nicht in ein öffentlich zugängliches KI-System eingegeben werden dürfen. Gerade die Sensibilisierung der Nutzer ist ein wichtiger Aspekt im Rahmen einer gelungenen Data Governance.

Fazit

Eine gute Data Governance ist der Schlüssel, um Datenschutz und Datensicherheit in LLM-Projekten sicherzustellen. Schnell und einfach lässt sich das Zusammenspiel aus Datenbank und LLM über eine ganzheitlich angelegte Plattform umsetzen. So sind Unternehmen in der Lage, entscheidende Hürden bei der Implementierung von generativen KI-Applikationen zu überwinden und zügig – schon in sechs bis zwölf Monaten – mit Innovationen voranzuschreiten. Es lohnt sich, bald mit einem kleinen Pilotprojekt zu starten und erste Erfahrungen zu sammeln. Denn wer schneller ist als der Wettbewerb, profitiert früher vom Erfolg.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Data Governance