Adversarial Machine Learning
Adversarial Machine Learning, zu Deutsch etwa kontradiktorisches maschinelles Lernen, ist eine Technik, die beim Machine Learning eingesetzt wird, um ein Modell mit böswilligen Eingaben zu täuschen oder fehlzuleiten.
Obwohl Adversarial Machine Learning in einer Vielzahl von Anwendungen eingesetzt werden kann, wird diese Technik am häufigsten verwendet, um einen Angriff auszuführen oder eine Fehlfunktion in einem Machine-Learning-System zu verursachen. Dieselbe Instanz eines Angriffs kann leicht geändert werden, um auf mehreren Modellen mit unterschiedlichen Datensätzen oder Architekturen zu arbeiten.
Adversarial Machine Learning kann entweder als White- oder Black-Box-Angriff betrachtet werden. Bei einem White-Box-Angriff kennt der Angreifer das Innenleben des verwendeten Modells, bei einem Black-Box-Angriff kennt der Angreifer nur die Ergebnisse des Modells.
Machine-Learning-Modelle werden anhand großer Datensätze trainiert, die sich auf das zu lernende Thema beziehen. Wenn zum Beispiel eine Automobilfirma einem selbstfahrenden Auto beibringen möchte, wie man ein Stoppschild erkennt, dann füttert diese Firma einen Machine-Learning-Algorithmus mit Tausende von Bildern von Stoppschildern. Gegen diesen Algorithmus kann ein böswilliger Angriff, wie zum Beispiel per Adversarial Machine Learning, eingesetzt werden, der die Eingabedaten des Algorithmus (in diesem Fall Bilder von Stoppschildern) ausnutzt, um diese Daten falsch zu interpretieren, wodurch das Gesamtsystem dann Stoppschilder falsch identifiziert, wenn das Auto entweder in der Praxis oder in der Produktion eingesetzt wird.
Arten von Adversarial-Machine-Learning-Angriffen
Adversarial-Machine-Learning-Angriffe können entweder als Fehlklassifikationseingaben oder als Datenvergiftung (data poisoning) klassifiziert werden. Fehlklassifikationseingaben sind die häufigere Variante, bei der Angreifer schädliche Inhalte in den Filtern eines Machine-Learning-Algorithmus einschleusen. Das Ziel dieses Angriffs besteht darin, dass das System einen bestimmten Datensatz falsch klassifiziert. Dazu können Backdoor-Trojaner-Angriffe nach dem Einsatz des Systems verwendet werden.
Eine Datenvergiftung liegt vor, wenn ein Angreifer versucht, den Machine-Learning-Prozess zu modifizieren, indem er ungenaue Daten in einen Datensatz einfügt, wodurch die Ausgaben weniger genau werden. Ziel dieser Art von Angriffen ist es, den Machine-Learning-Prozess zu beeinträchtigen und die Nützlichkeit des Algorithmus zu minimieren.
Verteidigung gegen Adversarial Machine Learning
Gegenwärtig gibt es keine konkrete Möglichkeit, sich gegen Adversarial Machine Learning zu verteidigen. Es gibt jedoch einige wenige Techniken, die helfen können, einen solchen Angriff zu verhindern. Zu diesen Techniken gehört das kontradiktorische Training und die defensive Destillation.
Das kontradiktorische Training ist ein Prozess, bei dem Beispiele kontradiktorischer Instanzen in das Modell eingeführt und als bedrohlich bezeichnet werden. Dieser Prozess kann nützlich sein, um zu verhindern, dass weitere Angriffe auftreten, erfordert jedoch einen hohen Pflegeaufwand.
Die defensive Destillation zielt darauf ab, einen Machine-Learning-Algorithmus flexibler zu machen, indem ein Modell die Ergebnisse eines anderen Modells vorhersagen kann, das zuvor trainiert wurde. Dieser Ansatz kann unbekannte Bedrohungen identifizieren. Er ähnelt dem Generative Adversarial Network (GAN), bei dem zwei neuronale Netze zusammen aufgebaut werden, um Machine-Learning-Prozesse zu beschleunigen, wobei zwei Modelle zusammen verwendet werden.