Sergey Nivens - stock.adobe.com
Data Poisoning: Die Risiken für KI-Modelle
Die Qualität eines KI-Modells hängt zum großen Teil von den Daten ab, mit denen es trainiert wurde. Cyberkriminelle können dies ausnutzen, indem sie Trainingsdaten manipulieren.
Künstliche Intelligenz ist längst im Alltag angekommen und steckt in zahlreichen Consumer- und Business-Anwendungen. Doch erst mit dem enormen Erfolg von ChatGPT ist vielen Unternehmen klargeworden, wie vielseitig und leistungsstark die smarten Algorithmen tatsächlich sind. Das hat dazu geführt, dass sie nun fieberhaft nach Möglichkeiten suchen, wie sie KI einsetzen können, um ihren Mitarbeitern den Arbeitsalltag zu erleichtern oder ihre Produkte und Services zu verbessern. Ohne KI, so die Befürchtung der Unternehmen, könnten sie eine große Chance verpassen und im Wettbewerb zurückfallen.
Bei aller Euphorie wird allerdings leicht übersehen, dass KI auch Sicherheitsrisiken birgt. So können Cyberkriminelle beispielsweise versuchen, die Algorithmen zu manipulieren, um deren Entscheidungen und Aussagen zu beeinflussen. Ein Chatbot liefert dann womöglich ungenaue oder falsche Informationen, eine Security-Lösung erkennt Bedrohungen nicht mehr zuverlässig und ein Prognosetool liefert fehlerhafte Vorhersagen.
Um solche Fehlleistungen der KI hervorzurufen, verfälschen Cyberkriminelle in der Regel die Trainingsdaten, denn letztlich ist ein KI-Modell immer nur so gut wie die Daten, mit denen es trainiert wurde. Dieses sogenannte Data Poisoning ist zwar nicht völlig neu und wurde in der Vergangenheit schon genutzt, um Spamfilter auszutricksen. Doch die vielen neuen KI-Tools und die schnell wachsenden Nutzerzahlen machen derartige Attacken immer attraktiver, sodass in den kommenden Monaten und Jahren ein deutlicher Anstieg zu erwarten ist.
Welche Arten von Data Poisoning gibt es?
Cyberkriminelle haben verschiedene Möglichkeiten, ein KI-Modell über die Trainingsdaten zu kompromittieren. Sie können bereits zugewiesene Labels für die Datensätze austauschen, aber auch die Datensätze selbst verändern und mit „Approved“-Labels versehen, damit die KI falsche Klassifizierungen vornimmt und False Positives oder False Negatives produziert.
Bei einer Availability Attack geht es darum, mit den verfälschten Trainingsdaten das gesamte KI-Modell zu schwächen, sodass es ungenauer arbeitet oder sogar gänzlich unbrauchbar wird. Targeted Attacks zielen im Unterschied dazu darauf ab, Ungenauigkeiten und Fehler nur in bestimmten Bereichen zu provozieren. Solche Angriffe lassen sich schwerer entdecken, da das Modell ansonsten weitgehend korrekt arbeitet. Eine Unterform der Targeted Attacks sind Subpopulation Attacks, bei denen innerhalb sehr großer und diverser Trainingsdatensätze eine ganz spezifische Untermenge an Trainingsdaten manipuliert wird.
Darüber hinaus können Cyberkriminelle durch geschickte Manipulationen auch Hintertüren in ein KI-Modell einbauen. Bei diesen Backdoor Attacks arbeitet das Modell völlig normal und liefert nur bei ganz bestimmten Eingaben, den sogenannten Triggern, eine vom Angreifer vorgesehene Ausgabe. Eine Bilderkennung zum Beispiel identifiziert dadurch Objekte falsch, eine Security-Lösung wiederum erkennt im Extremfall eine Malware nicht, weil sie den Trigger enthält und als unbedenklich eingestuft wird.
„Data Poisoning lässt sich nur schwer entdecken, solange die KI keine extrem auffälligen Verhaltensweisen zeigt. Es ist überdies äußerst aufwendig, den Algorithmen das Fehlverhalten wieder abzutrainieren.“
Frank Limberger, Forcepoint
Eine andere Möglichkeit, Angriffe via Data Poisoning zu kategorisieren, ist das Wissen, das die Angreifer besitzen müssen. Kennen sie das KI-Modell und die Trainingsparameter nicht, spricht man von einer Black-Box-Attacke. Sind ihnen das KI-Modell und die Trainingsparameter hingegen bekannt, handelt es sich um eine White-Box-Attacke. Derartige Angriffe sind in der Regel die erfolgreichsten, weil sie es ermöglichen, die KI in einem Bereich gezielt zu schwächen oder mit einer Hintertür zu versehen. Es gibt allerdings auch Zwischenstufen, also Grey-Box-Attacken, bei denen Cyberkriminelle das KI-Modell und/oder die Trainingsparameter nur teilweise kennen.
Was kann man gegen Data Poisoning tun?
Data Poisoning lässt sich nur schwer entdecken, solange die KI keine extrem auffälligen Verhaltensweisen zeigt. Es ist überdies äußerst aufwendig, den Algorithmen das Fehlverhalten wieder abzutrainieren. Zunächst müssen Unternehmen nämlich alle Trainingsdatensätze analysieren, was angesichts der riesigen Datenmengen, mit denen manche KI-Modelle trainiert werden, oft unmöglich ist. Außerdem müssen sie in der Lage sein, die manipulierten Datensätze tatsächlich zu erkennen und zu entfernen.
Das anschließende Neutraining des Modells erfordert zudem viel Rechenleistung und verursacht hohe Kosten. Günstiger und weniger aufwendig sind daher erfahrungsgemäß proaktive Maßnahmen, die die Trainingsdaten zuverlässig schützen. Dabei helfen Zero-Trust-Konzepte, die unbefugte Zugriffe auf die Daten und somit Manipulationen verhindern. Mit statistischen Methoden lassen sich darüber hinaus Anomalien in den Datensätzen aufspüren, und mit Tools wie Azure Monitor und Amazon SageMaker können Unternehmen die Leistung ihrer KI-Modelle überwachen und unerwartete Schwankungen in der Genauigkeit erkennen. Letztlich können sie das volle Potenzial von KI nur ausschöpfen, wenn sie ihre Modelle schützen und Angreifer von den Trainingsdaten fernhalten.
Über den Autor:
Frank Limberger ist Data & Insider Threat Security Specialist bei Forcepoint.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.