DIgilife - stock.adobe.com
Generative KI: Datenrisiken bei LLMs erkennen und minimieren
Bevor generative KI eingesetzt werden darf, steht eine Datenschutz-Folgeabschätzung an. Wie kann eine umfassende Datenschutz-Analyse beim Umgang mit LLMs in der Praxis aussehen?
Datenschutz wird häufig als einer der Gründe genannt, warum Unternehmen bei dem Einsatz von KI (künstlicher Intelligenz) und insbesondere von LLMs (Large Language Models) zögern. Es ist den Unternehmen zum Beispiel nicht klar, wie sich vertrauliches Firmenwissen sowie personenbezogene und andere zu schützende Daten vor ungewolltem Abfluss an Dritte schützen lassen.
Datenschützer warnen auch vor einer vorschnellen, unüberlegten Einführung von KI im Unternehmen, die Datenschutz-Grundverordnung (DSGVO) sieht den Bedarf einer Datenschutz-Folgenabschätzung (DSFA) vor Einführung von KI-Technologien (siehe auch Datenschutz: Was vor dem Einsatz von KI-Diensten zu tun ist).
Gleichzeitig möchte der Datenschutz aber den Einsatz moderner Technologien nicht verhindern, sondern vielmehr einen datenschutzgerechten Weg aufzeigen. So erklärt die Bundesdatenschutzbeauftragte (BfDI) Professor Dr. Louisa Specht-Riemenschneider: „Damit datengetriebene Innovationen allen Menschen zu Gute kommen, ist es mir wichtig, Wege aufzuzeigen, die eine datenschutzkonforme Anwendung und die Umsetzung von Innovationen ermöglichen.“
LLMs sind mit Datenrisiken verknüpft
LLMs sind hochkomplexe KI-Modelle zur Generierung von Texten. Sie werden mit großen Datenmengen trainiert, erklären die Mitglieder der Berlin Group, einer unabhängigen Gruppe von Expertinnen und Experten im Bereich des technologischen Datenschutzes unter Leitung der BfDI. Allein schon der Umstand, dass LLMs mit „großen Datenmengen“ trainiert werden, zeigt, dass Unternehmen auch mit Risiken für den Datenschutz rechnen müssen, denn viele Daten haben direkten oder indirekten Personenbezug.
Zu den Herausforderungen für den Datenschutz zählt die Berlin Group gängige Praktiken wie wahlloses Datensammeln zum Erstellen der Trainingsdatensätze, unregelmäßige oder nicht vorhandene Prüfungen von Trainingsdaten und -ergebnissen, Black-Box-Algorithmen, die nicht überprüft oder erklärt werden können, und ein Mangel an technischem Wissen.
Data Scraping untergrabe die Kontrolle des Einzelnen über seine persönlichen Daten und nehme ihr oder ihm die Möglichkeit, die Verwendung der eigenen Daten zu kontrollieren, insbesondere da Einzelpersonen häufig überhaupt nicht wüssten, dass ihre Daten von LLMs verwendet werden.
Auch LLMs müssen sich an den Datenschutzprinzipien messen lassen
Um das Datenschutzniveau und die möglichen Datenrisiken bei LLMs prüfen zu können, müssen keine völlig neuartigen Datenschutzansätze gefunden werden, vielmehr gilt es, die aus der DSGVO bekannten Datenschutzprinzipien auch auf die LLMs anzuwenden. Genau das hat die Berlin Group in einer aktuellen Veröffentlichung zu LLMs (PDF) getan.
Im Folgenden werden die Hinweise der Berlin Group zusammengestellt, um aufzuzeigen, wie sich die Grundsätze des Datenschutzes auf LLMs anwenden lassen, als Grundlage der erforderlichen Datenschutz-Analyse oder Datenschutz-Folgenabschätzung:
Rechtsgrundlage: Die Entwickler und Betreiber generativer KI-Systeme, die personenbezogene Daten verarbeiten, müssen über eine gültige Rechtsgrundlage im Datenschutzrecht verfügen und auch im Einklang mit anderen geltenden Gesetzen (zum Beispiel Urheberrecht) sein. In Bezug auf Trainingsdaten für generative KI ist es wichtig zu beachten, dass öffentlich zugängliche personenbezogene Daten immer noch unter die Datenschutzgesetze fallen, so die Berlin Group.
Zweckbindung: Die Entwickler und Betreiber von LLMs und generativen KI-Systemen, die personenbezogene Daten verarbeiten, müssen sicherstellen, dass diese Daten für bestimmte explizite und legitime Zwecke verarbeitet werden. Darüber hinaus müssen sie sicherstellen, dass sie die Daten nicht über die berechtigten Erwartungen des Einzelnen hinaus oder für unvereinbare Zwecke verarbeiten.
Datenminimierung: Die Entwickler und Betreiber von LLMs und anderen generativen KI-Systemen, die personenbezogene Daten verarbeiten, sollten die Verarbeitung auf das für ihren Zweck „Notwendige“ beschränken. Die frühzeitige Einschränkung des Vorkommens oder der Verarbeitung personenbezogener Daten ist ein wichtiger Schritt zum Schutz der Rechte der betroffenen Personen. Zu diesem Zweck sollten Entwickler bestrebt sein, bei allen Vorkommen personenbezogener Daten in ihren Datensätzen eine Datenminimierung anzuwenden.
Transparenz: Die Entwickler und Betreiber von LLMs und anderen generativen KI-Systemen, die personenbezogene Daten verarbeiten, müssen Transparenzmaßnahmen umsetzen, und zwar insbesondere in Bezug auf betroffene Personen, denen eine Reihe von Informationsrechten zustehen. Dazu sollten Informationen darüber gehören, was, wie, wann und warum personenbezogene Daten im Trainingsprozess des Systems erfasst und verwendet werden, einschließlich der Quellen der Trainingsdaten, der Vor- und Nachverarbeitungsmaßnahmen zur Entfernung personenbezogener Daten und der Zuverlässigkeit der Vorhersage des generierten Textes.
Sicherheit: Die Entwickler und Bereitsteller von LLMs und anderen generativen KI-Systemen, die personenbezogene Daten verarbeiten, müssen Sicherheitsmaßnahmen implementieren. Die Daten müssen während der Speicherung, Entwicklung, aber auch während der Nachbereitstellung sicher aufbewahrt werden, um komplexen Sicherheitsproblemen Rechnung zu tragen.
Rechenschaftspflicht: Die Entwickler und Betreiber von LLMs und anderen generativen KI-Systemen, die personenbezogene Daten verarbeiten, sollten sicherstellen, dass sie die Einhaltung des Datenschutzes nachweisen können.
Genauigkeit: Die Entwickler und Betreiber von LLMs und anderen generativen KI-Systemen müssen sicherstellen, dass die von ihnen verarbeiteten personenbezogenen Daten so genau, vollständig und aktuell sind, wie es für die Zwecke, für die sie verwendet werden sollen, erforderlich ist. Dies gilt insbesondere für personenbezogene Daten, die zum Trainieren von LLMs oder generativen KI-Modellen verwendet werden. Um dieses Prinzip zu unterstützen, sollten Entwickler und Bereitsteller über einen Prozess verfügen, mit dem ihr LLM- oder generatives KI-System aktualisiert werden kann (zum Beispiel durch Verfeinerung oder Neutraining des Modells).
LLMs: Die Einhaltung des Datenschutzes muss sichergestellt werden
Die Berlin Group beschreibt auch eine Reihe von Maßnahmen zur Gewährleistung dieser Prinzipien des Datenschutzes. Dazu gehören das Kuratieren der Datenquellen, die Vorverarbeitung (Entfernen vertraulicher Daten) und Differential Privacy.
Nur wenn alle Grundprinzipien des Datenschutzes gewahrt werden und entsprechende technisch-organisatorischen Maßnahmen ergriffen werden, kann eine Datenschutz-Analyse zu dem Ergebnis kommen, dass ein LLM datenschutzgerecht eingesetzt werden kann. Abweichungen von den Datenschutzprinzipien bedeuten ein Datenrisiko, also eine mögliche Verletzung des Datenschutzes.
Das Papier der Berlin Group enthält auch Beispiele für LLM-Anwendungen und entsprechende Maßnahmen, um die Prinzipien des Datenschutzes einzuhalten, und ist deshalb ein wertvoller Baustein auf dem Weg zu einem Datenschutzkonzept für die Nutzung von LLMs im Unternehmen.