Feng Yu - stock.adobe.com
Warum ethische KI wichtig für die Zukunft ist
Datensätze für das Trainieren von KI- und Machine-Learning-Modellen sind niemals vollständig neutral. Der Schlüssel im Kampf gegen Verzerrung kann eine Blockchain sein.
Künstliche Intelligenz (KI) und Machine Learning (ML) sind unerlässlich für unseren Fortschritt geworden: Ob Robotic Process Automation (RPA), autonome Fahrzeuge oder auch nur das Empfehlungssystem auf Netflix. Ohne KI und Machine Learning kommen diese Systeme nicht aus.
Häufig leiden diese Technologien allerdings unter einem Black-Box-Problem. Sie sind, wenn überhaupt, nur unter größten Anstrengungen nachvollziehbar. Fehlt aber dieses Verständnis, lassen sich Probleme kaum vermeiden. Gefährlich sind künstliche Intelligenz und Machine Learning deswegen jedoch noch lange nicht. Wir müssen nur lernen, verantwortungsvoll mit den neuen Möglichkeiten umzugehen.
Voreingenommenheit in der digitalen Welt
Voreingenommenheit – oder Bias in der Fachsprache – ist im KI-Bereich eine systematische Verzerrung realer Umstände. Das kann sogar bedeuten, dass ein Machine-Learning-Modell diskriminierende Entscheidungen fällt, etwa bei der Vergabe von Krediten. Um dieses Problem zu beseitigen, muss zunächst klar sein, woher dieser Bias kommt. Hier gibt es zwei Möglichkeiten: problematische Datensätze und fragwürdige künstliche Intelligenz und Machine-Learning-Modelle.
Diese beiden Faktoren sind der Schlüssel, um in Zukunft verantwortungsvoller mit KI umzugehen. Wichtig ist in diesem Zusammenhang, dass wir hier nur über unbewusste Verzerrungen sprechen. Denn eigentlich haben Data Scientists noch andere Möglichkeiten, um KI schadhaft einzusetzen. Wie schwer diese unbewussten Probleme in der Praxis oft zu erkennen sind, zeigt der Datensatz CoNLL-2003.
Daten: Ein Spiegel der Gesellschaft
Mit CoNLL-2003 werden Machine-Learning-Systeme darauf trainiert, Entitäten wie Personen oder Unternehmen in Texten zu identifizieren – das sogenannte Named Entity Recognition (NER). Das Problem ist, dass der Datensatz weitaus mehr männliche Namen enthält als weibliche und damit die Wahrnehmung eines Machine-Learning-Systems verzerrt.
Teilweise so sehr, dass ein mit CoNLL-2003 trainiertes Machine-Learning-Modell fünf Prozent häufiger weibliche Namen in neuen Texten übersieht. Das ist jedenfalls das Ergebnis einer aktuellen Untersuchung von Scale AI.
Die Problematik basiert hier vor allem auf den zugrunde liegenden Daten: CoNLL-2003 entstand vor 17 Jahren als Forschungsdatensatz aus Nachrichten der 90er Jahre von Reuters und der Frankfurter Rundschau.
Der Fokus lag damals auf der Erstellung eines Datensatzes, um die Leistung von Algorithmen zu vergleichen, über Verzerrungen wurde nur wenig nachgedacht. Die Daten basieren größtenteils also auf Nachrichten aus einer Zeit mit einer anderen gesellschaftlichen Realität und spiegeln damit die damalige Voreingenommenheit wider. Beispielsweise, dass vor allem Männer in solchen Stories namentlich genannt werden. Das entlässt Mitarbeiter an einem solchen Projekt aber nicht aus ihrer Pflicht, sich um diese Verzerrungen zu kümmern.
Maschinen: Interpreten der Datensätze
Im Bereich KI und Machine Learning stellt sich Voreingenommenheit nämlich noch einmal anders dar: Hier können immer noch viele Modelle nur schwer erklärt werden. Das kann schnell zu unerkannten Verzerrungen führen. Zu verstehen, wie ein Modell zu einer Entscheidung kommt, gleicht hier der Entschlüsselung eines Enigma-Codes.
Allerdings lässt sich die Unwissenheit gegenüber den genauen Funktionsweisen eines Modells nicht mit kontinuierlichen Bias-Tests in Einklang bringen. Möchten wir keine bösen Überraschungen erleben, sind diese Tests aber unabdingbar.
Nachvollziehbarkeit und Erklärbarkeit sind also die Grundlage im Kampf gegen Bias. Hier greift das Konzept Explainable first, predictive second. Anders ausgedrückt: Ein Machine Learning-Modell muss zunächst nachvollziehbar sein. Erst wenn diese Grundlage gegeben ist, kann man dazu übergehen, das Modell effizienter zu gestalten. So lässt sich genau erkennen, ob es Probleme mit dem Modell gibt und wie man diese beseitigen kann.
Ethische KI: Der Schlüssel im Kampf gegen Bias
Erklärbare KI ist aber kein reiner Selbstzweck. Es ist vielmehr ein wichtiger Schritt auf dem Weg zu ethischer und verantwortungsvoller KI. Diese Themen sind inzwischen ein wichtiges Diskussionsthema und der Fakt, dass der Bias im Datensatz CoNLL-2003 aufgefallen ist, zeigt, wie wichtig dieser Bereich heute ist.
Der erste Schritt, um unvoreingenommene Datensätze zu erstellen, hätte auch bei CoNLL-2003 geholfen: die Annahme, dass Daten immer inhärent voreingenommen sind. Geht man davon aus, kann mit Statistik gezeigt werden, wo diese Daten möglicherweise gegenüber einer bestimmten Personengruppe voreingenommen sind. Zudem kann aufgezeigt werden, ob Daten fehlen, um diese möglichst unvoreingenommen auszugleichen.
Am Ende ist es wahrscheinlich nicht möglich, absolut neutrale Datensätze zu erstellen. Machbar aber ist, so viele Verzerrungen wie möglich zu beseitigen – das ist die Aufgabe der Data Scientists.
Natürlich geht der Kampf gegen Bias beim Erstellen von Machine-Learning-Modellen dann noch weiter. Denn um unvoreingenommene Modelle zu entwickeln, gibt es mehrere Dinge zu beachten. Gemeinsam mit dem Verständnis, dass Modelle kontinuierlich vom Beginn der Entwicklung bis zum Ende des Einsatzes überprüft werden müssen, sind die folgenden fünf Schritte im Kampf gegen Verzerrung entscheidend:
- Jedes Projekt sollte mit der Annahme begonnen werden, dass die Daten verzerrt sind.
- Der Erfassungsgrad der Daten muss verstanden werden. Das bedeutet: Decken die Daten auch alle Bereiche ab oder gibt es blinde Flecken?
- Nur Modelle, die selbsterklärend sind, sollten in einem Projekt genutzt werden.
- Im Projekt werden zuverlässige und vom jeweiligen Unternehmen zugelassene Methoden benötigt, um auf etwaigen Bias zu testen.
- Alle erlernten Relationen müssen auf Bias getestet werden – nicht nur die Input- und Output-Daten.
In der Praxis ist vor allem der letzte Punkt von Bedeutung: Jedes latente Merkmal (Datenbeziehung), das von einem Modell erlernt wird, muss extrahiert und auf Verzerrung getestet werden. Auf Basis dieser Verzerrungstests können dann problematische latente Merkmale ausgeschlossen und das Modell mit den neuen Einschränkungen neu trainiert werden. Die Qualität der Transparenz und der Tests ist also ein Schlüssel zur Beseitigung gelernter Verzerrungen und Voraussetzung für ein Modell, das nicht vom ersten Tag an voreingenommen ist.
Wie Blockchain der KI-Entwicklung helfen kann
Eine der Hauptschwächen in der KI ist die Hybris der Data Scientists. Durch die ständigen Meldungen über neue KI-Anwendungsbereiche, Milliarden von Marktchancen und KI-Start-ups wird diese natürlich befeuert. Hier führt überstürztes Handeln zu Problemen und im schlimmsten Fall zu Schäden.
Daher ist es zweifelsohne positiv, dass es inzwischen immer mehr Interessengruppen gibt, die sich auf den Gerechtigkeitsaspekt bei KI und Algorithmen konzentrieren. Denn wo KI-Fehlentscheidungen große Gefahren nach sich ziehen können, ist immer menschliches Eingreifen erforderlich. Der nächste große Schritt ist es, die KI-Gemeinschaft davon zu überzeugen, dass wir Standards für den Einsatz künstlicher Intelligenz schaffen müssen. Verantwortungsvolle KI muss robust entwickelt, erklärbar, ethisch vertretbar und überprüfbar sein.
Hier kommen gut kontrollierbare Governance-Standards zum Einsatz, die während der Modellentwicklung durchgesetzt werden. Bei FICO haben wir beispielsweise eine Modell-Governance-Blockchain entwickelt, um diesem Thema Rechnung zu tragen. Alle Schritte der Modellentwicklung werden in dieser Blockchain dokumentiert.
„Verantwortungsvolle künstliche Intelligenz muss robust entwickelt, erklärbar, ethisch vertretbar und überprüfbar sein.“
Scott Zoldi, FICO
Dazu gehören die Überprüfung latenter Merkmale, Verzerrungstests und Infos darüber, welches Teammitglied welche Tests oder Veränderungen vorgenommen hat. Dies ermöglicht die Durchsetzung von unternehmensinternen KI-Entwicklungsstandards und verhindert, dass wesentliche Schritte übersehen und Fehler gemacht werden.
Es ist an der Zeit, einen Schritt zurückzugehen und dafür Sorge zu tragen, dass ein verantwortungsvoller Rahmen für die Entwicklung von KI vorhanden ist, der auch geprüft und durchgesetzt wird.
Die Blockchain mit der sehr granularen Nachvollziehbarkeit ist dafür ein Ansatzpunkt. Denn selbst wenn unbewusst Fehler in der Entwicklung gemacht werden sollten, können diese bereinigt werden. Modelle werden ethischer und Data Scientists weniger angreifbar. So wird der verantwortungsbewusste Umgang mit KI zur Win-Win-Situation für alle.
Über den Autor:
Scott Zoldi ist Chief Analytics Officer bei FICO und verantwortlich für die analytische Entwicklung der Produkte und Lösungen des Unternehmens. Er ist federführend für die Ausarbeitung von Patenten zuständig. Seit seinem Start bei FICO hat Scott Zoldi bereits 105 Patente verantwortet, von denen 53 erteilt und 52 angemeldet wurden.
Er ist aktiv an der Entwicklung neuer Big-Data-Analytikprodukte und -Analytikanwendungen beteiligt. Viele dieser Lösungen nutzen Streaming-Analytik-Innovationen wie adaptive Analytik, Collaborative Profiling und selbstkalibrierende Analytik. In jüngster Zeit konzentriert sich Scott Zoldi auf Anwendungen der selbstlernenden Streaming-Analytik zur Echtzeiterkennung von Cyberangriffen. Er ist Mitglied in den Verwaltungsräten von Software San Diego und des Cyber Center of Excellence. Seinen Doktortitel erhielt Scott Zoldi in theoretischer und rechnergestützter Physik an der Duke University in Durham, North Carolina.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.