LLMs: Das Risiko unsicherer Umgang mit den KI-Ausgabedaten

Die von generativer KI erzeugten Ausgaben können für nachgelagerte Systeme und Nutzer hohe Risiken bergen. Bereinigung, Validierung und Zero Trust helfen, diese zu reduzieren.

von

Matthew Smith, Seemless Transition LLC

Zuletzt aktualisiert:13 Nov. 2024

Generative KI wird zu einem festen Bestandteil der Arbeitsabläufe in vielen Unternehmen. Die Benutzer erstellen Inhalte und treffen Entscheidungen mithilfe neuer Tools, die auf den Ergebnissen großer Sprachmodelle (LLM) basieren. Diese neuen Tools bringen jedoch auch neue Risiken mit sich, die erkannt, bewertet und verwaltet werden müssen.

Ein spezielles Problem ist der unsichere Umgang mit Ausgaben der Sprachmodelle. Was versteht man unter Insecure Output Handling, wodurch wird es verursacht und wie lässt sich das verhindern?

Was ist Insecure Output Handling?

Unsichere Handhabung von Ausgaben bedeutet, dass LLM-generierte Ausgaben nicht validiert oder bereinigt werden, bevor sie von anderen Systemen oder Benutzern verwendet werden. Ohne ordnungsgemäße Validierung oder Kontrolle können diese Ausgaben dann falsche Informationen (Halluzinationen) verbreiten oder Sicherheitslücken oder schädliche Inhalte einschleusen.

Eine unsichere Output-Verarbeitung kann zu neuen Bedrohungen führen, die von einer Schädigung des Rufs bis hin zu Softwareschwachstellen reichen und möglicherweise weitere Risiken für die Cybersicherheit mit sich bringen.

Was sind die Ursachen für eine unsichere Ausgabe?

Die unsichere Ausgabe ist eine Folge der Funktionsweise von LLMs. Große Sprachmodelle erzeugen eher probabilistische - mit anderen Worten zufällige - als deterministische Ausgaben. Jedes Mal, wenn einem LLM eine Aufforderung (Prompt) gegeben wird, erzeugt er eine neue Antwort, selbst wenn die Aufforderung dieselbe ist. Daher gibt es keine Garantie dafür, wie die Antwort bei einer bestimmten Aufforderung ausfallen wird.

Aufgrund ihres wahrscheinlichkeitsbasierten Charakters produzieren LLMs Antworten, die je nach ihrem spezifischen Training und der erhaltenen Prompts in ihrer Genauigkeit oder Angemessenheit variieren. Ohne die richtigen Sicherheitsvorkehrungen kann diese Variabilität absichtlich ausgenutzt werden oder unbeabsichtigt Schaden verursachen.

Die folgenden drei Kategorien zeigen, wie unsichere Ausgaben entstehen:

Halluzinationen. KI-Halluzinationen treten auf, wenn das Modell Informationen generiert, die faktisch falsch oder völlig erfunden sind. Diese Halluzinationen können Benutzer oder Systeme in die Irre führen, was zu fehlerhaften Entscheidungen oder falschen Aktionen führt. Wenn der erzeugte Output nicht ordnungsgemäß überprüft wird, können Halluzinationen Fehlinformationen oder Fehler in ein System einschleusen.

Bias der Trainingsdaten. Wenn der Datensatz, der zum Trainieren des Modells verwendet wird, Voreingenommenheit enthält, könnten sich diese Verzerrungen in der Ausgabe widerspiegeln. Dies kann zu diskriminierenden oder ungerechten Ergebnissen führen. Wenn sich ein Unternehmen also auf ein LLM verlässt, das nicht mit Daten trainiert wurde, die auf die Art der gestellten Fragen abgestimmt sind, könnten die Ergebnisse Risiken für nachgelagerte Systeme mit sich bringen (siehe auch Was ist KI-Bias und warum ist es wichtig?).

Manipulation von Eingaben. Eingabemanipulation liegt vor, wenn böswillige Akteure bestimmte Eingaben so gestalten, dass das LLM unsichere, falsche oder schädliche Ausgaben erzeugt. Diese als Prompt-Injection-Angriffe bekannten Manipulationen können die Empfindlichkeit des Modells gegenüber bestimmten Eingabemustern ausnutzen, um Ausgaben zu erzeugen, die nicht vertrauenswürdig sind oder von nachgelagerten Systemen verwendet werden sollten.

Wie verhindert man eine unsichere Verarbeitung von KI-Ausgaben?

Der unsichere Umgang mit den Ergebnissen der KI stellt ein ernsthaftes Risiko dar, da die Verwendung von generativer KI und großen Sprachmodellen weiter zunimmt. Die Risikominderung hängt von einem vielschichtigen Ansatz ab, der die folgenden beiden Schlüsselmaßnahmen umfasst:

Anwendung eines Zero-Trust-Ansatzes für LLM-Ausgaben. Bei der Anwendung eines Zero-Trust-Modells wird jede LLM-Ausgabe als potenziell schädlich behandelt, bis sie ausdrücklich validiert wird. Dadurch wird sichergestellt, dass Systeme und Benutzer kein unreflektiertes Vertrauen in LLM-Ausgaben setzen.

Validieren und bereinigen. Implementieren Sie strenge Validierungs- und Bereinigungsmechanismen, um sicherzustellen, dass die Ausgabe des Modells mit bekannten Fakten, akzeptablen Formaten und Sicherheitsanforderungen übereinstimmt. Diese Prüfungen decken sowohl bekannt gute als auch bekannt schlechte Varianten ab.

LLMs: Das Risiko unsicherer Umgang mit den KI-Ausgabedaten

Die von generativer KI erzeugten Ausgaben können für nachgelagerte Systeme und Nutzer hohe Risiken bergen. Bereinigung, Validierung und Zero Trust helfen, diese zu reduzieren.

Was ist Insecure Output Handling?

Was sind die Ursachen für eine unsichere Ausgabe?

Wie verhindert man eine unsichere Verarbeitung von KI-Ausgaben?

Erfahren Sie mehr über Datensicherheit

KI-Prompt

LangChain

AutoGPT

Kontextfenster