Data Poisoning: die unsichtbare Gefahr der generativen KI

Trainingsdaten von großen Sprachmodellen lassen sich relativ einfach manipulieren oder vergiften. Im Hinblick auf die Ergebnisse kann das erhebliche Folgen für Unternehmen haben.

von

Sam Curry, Zscaler

Zuletzt aktualisiert:13 Sept. 2024

Als Forscher von JFrog Anfang des Jahres 2024 routinemäßig KI-/ML-Modelle auf der Plattform Hugging Face scannten, entdeckten sie nicht nur an die hundert bösartige Modelle, sondern damit einhergehend auch eine unterschätzte Gefahr für die IT-Sicherheit von KI: Data Poisoning und Manipulation. Das Problem beim Data Poisoning besteht darin, dass es sich um eine unorthodoxe Art eines Cyberangriffs handelt, der in einigen Fällen unmöglich zu erkennen oder zu stoppen ist. Ein solcher Angriff zielt auf die zur Erstellung von KI-/ML-Modellen verwendeten Trainingsdaten ab. Damit lässt sich die Wirksamkeit von KI auf relativ einfache Weise torpedieren und es ist nicht einmal Hacking im herkömmlichen Sinne erforderlich.

Trainingsdaten lassen sich mit einfachen Mitteln manipulieren oder vergiften. Grafik-Designer und Fotografen haben – wohl aus Rache für ihre unbezahlt benutzten Werke – einige der KI-Modelle zur Bildgenerierung infiziert. Dafür nutzten sie „Nightshade“, ein Programm, das eigens für den Zweck entwickelt wurde, ungefragt genutzte Werke aus einem KI-Modell zu manipulieren. Das Tool verändert die Pixel eines Bildes auf subtile Weise, so dass es für die Computeransicht verheerende Folgen hat, für das menschliche Auge aber unverändert bleibt. Wenn ein Unternehmen dann eines dieser Bilder zum Trainieren eines künftigen KI-Modells verwendet, wird sein Datenpool sozusagen vergiftet. Dies kann dazu führen, dass der Algorithmus fälschlicherweise lernt, ein Bild als etwas zu klassifizieren, was ein Mensch visuell als unwahr erkennen würde. Infolgedessen kann der Generator unvorhersehbare und unbeabsichtigte Ergebnisse liefern.

Manipulierte KI-Modelle

KI-Modelle können also nach dem Anlernen des Trainingsmodells mit fehlerhaften Daten zu fehlerhaften Ergebnissen führen oder sie können so manipuliert werden, dass sie falschen Befehlen folgen. Letztlich sind diese zwei Angriffsarten denkbar, wobei die eine Manipulation vor dem Deployment des KI-Modells erfolgt und die zweite sogar Post-Deployment. Beide Manipulationsarten sind derzeit noch schwierig aufzudecken.

In seiner Analyse stellte JFrog fest, dass die in das Modell eingebettete Payload wie etwas aussah, das Forscher hochladen würden, um Schwachstellen zu demonstrieren oder Proofs-of-Concept zu zeigen. Das war bei den Modellen, die in Hugging Face's AI Collaboration Repository hochgeladen wurden, nicht der Fall. Möglicherweise steckten Forscher dahinter, denn die Nutzdaten enthielten Links zu IP-Adressen von KREOnet, dem Korea Research Environment Open Network.

Eingebaute KI-Probleme erschweren die Erkennung und begünstigen Exploits

Beispiele für die Manipulation von Trainingsdaten lassen sich bis zu den Ursprüngen des maschinellen Lernens zurückverfolgen. Bereits im Jahr 2014 haben Forscher gezeigt, dass subtile Angriffe auf die Eingaben dazu führen, dass ein Modell mit hoher Wahrscheinlichkeit eine falsche Antwort ausgibt. Es ist sogar möglich, dass generative KI-Modelle, die das Internet ungeprüft für Input nutzen, sich schließlich selbst vergiften. Da ihre Ergebnisse auf Basis unzuverlässiger Daten zum Input für künftige Trainingssätze werden, kann sich ein Prozess entwickeln, der als „degenereative model collapse“ bekannt ist. Erschwerend kommt hinzu, dass die Reproduzierbarkeit von KI-Modellen an sich schon eine Herausforderung darstellt, da riesige Datenbestände zum Trainieren von Modellen verwendet werden. Forscher und Data Scientists können möglicherweise nicht immer genau nachvollziehen, was an Input in ein Modell hineingegangen ist, und was herauskommt. Dadurch wird die Erkennung und Rückverfolgbarkeit von schädlichem Code erschwert.

„Unternehmen müssen sich die Risiken von KI-Systemen im Rahmen der allgemeinen Geschäftsprozesse vor Augen halten und geeignete Maßnahmen einschließlich der Überprüfung des gesamten Data-Governance-Lebenszyklus ergreifen.“

Sam Curry, Zscaler

So unangenehm das im KI-Hype auch klingen mag, darf Data Poisoning und Datenmanipulation nicht ignoriert werden. Angreifer können durch diese Möglichkeiten ermutigt werden, aktiv Hintertüren in KI-Software einzuschleusen. Das Ergebnis kann die Ausführung von schädlichem Code sein, wie der Fall von Hugging Face demonstriert. Hier führten neue Vektoren zu falsch klassifizierten Modellausgaben und damit unerwartetem Verhalten der KI. In einer digitalen Welt, die mit einem wachsenden Ökosystem aus vernetzter KI, GenAI, LLMs (Large Language Models) und APIs überzogen ist, sollte die globale Cybersicherheitsindustrie aufwachen und Maßnahmen zum Schutz von KI-Modellen ergreifen.

Wie lässt sich das „Unschützbare“ absichern?

Experten raten zu verschiedenen Techniken, um KI-gesteuerte Systeme vor Data Poisoning oder Manipulationskampagnen zu schützen. Dabei sollte der größte Fokus auf die Phase des Datentrainings und die Algorithmen selbst gelegt werden. In der Liste Top 10 for LLM Applications empfiehlt die Open Source Foundation for Application Security (OWASP) Schritte zur Vermeidung von Data Poisoning für Trainingsdaten. Besonderes Augenmerk sollte demnach auf den Bezugsmodellen von intern und extern bezogenen Trainingsdaten liegen. Datenquellen sollten in den Phasen vor dem Training kontinuierlich überprüft werden, um eine Feinabstimmung zu erreichen und die Verzerrungen oder Anomalien zu erkennen. OWASP empfiehlt außerdem, Daten mit statistischen Ausreißer- und Anomalieerkennungsmethoden zu bereinigen, um zu verhindern, dass schädliche Daten in den Feinabstimmungsprozess einfließen.

Wenn Unternehmen feststellen, dass ihre Trainingsdaten fehlerhaft sind, sollten sie die KI-Algorithmen wechseln, die für den Einsatz des betroffenen Modells verwendet wurden. Entwickler müssen KI- und ML-Algorithmen, die mit anderen interagieren oder sich gegenseitig beeinflussen, genau prüfen. Branchenexperten empfehlen außerdem, dass Cybersicherheitsteams die Robustheit und Widerstandsfähigkeit ihrer KI-Systeme durch Pentesting und Simulation auf Data Poisoning überprüfen.

Resiliente Modelle bauen

Ohne Vertrauen und Verlässlichkeit kann die größte Innovation in der Technologie ausgebremst werden. Unternehmen müssen Bedrohungen durch Hintertüren in der KI Code-Generierung verhindern, indem sie das gesamte Ökosystem und die zugrundeliegenden Bezugsquellen für GenAI und LLMs als Teil des gesamten Bedrohungskosmos betrachten. Durch die Überwachung der Inputs und Outputs dieser Systeme und die Erkennung von Anomalien mit Hilfe von Bedrohungsintelligenz können Erkenntnisse und Daten aus diesen Bemühungen helfen, bessere Kontroll- und Schutzmaßnahmen im Lebenszyklus der KI-Softwareentwicklung anzuwenden.

Unternehmen müssen sich die Risiken von KI-Systemen im Rahmen der allgemeinen Geschäftsprozesse vor Augen halten und geeignete Maßnahmen einschließlich der Überprüfung des gesamten Data-Governance-Lebenszyklus ergreifen. Darüber hinaus empfiehlt es sich, das Verhalten von KI in spezifischen Anwendungen kontinuierlich zu monitoren, um Abweichungen umgehend adressieren zu können.

Über den Autor:
Sam Curry ist VP und CISO bei Zscaler.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Data Poisoning: die unsichtbare Gefahr der generativen KI

Trainingsdaten von großen Sprachmodellen lassen sich relativ einfach manipulieren oder vergiften. Im Hinblick auf die Ergebnisse kann das erhebliche Folgen für Unternehmen haben.

Manipulierte KI-Modelle

Eingebaute KI-Probleme erschweren die Erkennung und begünstigen Exploits

Wie lässt sich das „Unschützbare“ absichern?

Resiliente Modelle bauen

Erfahren Sie mehr über Anwendungs- und Plattformsicherheit

KI-Bedrohungen in wenigen Schritten modellieren

Generative KI (GenAI, generative künstliche Intelligenz)

OWASP Top 10 für LLMs: Sprachmodelle und ihre Identitäten

KI-Red-Teaming (AI Red Teaming)