sarayut_sy - stock.adobe.com

Künstliche Intelligenz: Trainingsdaten sind entscheidend

Unternehmen, die heute und in Zukunft wettbewerbsfähig sein wollen, kommen um Systeme auf Basis künstlicher Intelligenz (KI) nicht mehr herum. Doch wie wird eine KI intelligent?

Künstliche Intelligenz (KI) zu entwickeln ist meist nur die halbe Miete, wenn es darum geht, effiziente Ergebnisse und Vorhersagen zu generieren. Entscheidend ist, wie das verantwortliche Entwicklungsteam die jeweilige KI trainiert und überwacht. Denn das größte Risiko in der Anwendung ist die Entstehung sogenannter Bias. Ein Bias sind unverhältnismäßige und damit unfaire Gewichtungen zugunsten einer Gruppe oder einzelner Personen innerhalb eines Systems. Jede KI kann Bias entwickeln und daraus diskriminierend Vorhersagen und Ergebnisse errechnen – der Hauptgrund sind ineffiziente Trainingsdaten.

Künstliche Intelligenz braucht eine Basis, die Trainingsdaten, aus der sie lernen und von der aus sie sich entwickeln kann. Sind bereits diese Daten fehlerhaft oder unausgeglichen, ist es nur logisch, dass die KI fehlerhafte Schlüsse, also Bias, daraus ziehen wird, die langfristig zu verfälschten Ergebnissen führen. Diese können Unternehmen nicht nur durch ineffiziente Empfehlungen schaden, sie können im schlimmsten Fall auch das Verhältnis zu Kunden und Partnern stören.

Ein bekanntes Beispiel ist Apple, die vor zwei Jahren einen weltweiten Shitstorm erlebte, als seine Apple Card Frauen bei der Vergabe von Krediten systematisch benachteiligte. Sogar Frauen mit hohem Einkommen und hoher Kreditwürdigkeit wurden gegenüber Männern mit niedrigeren Einstufungen abgewertet, Kredite wurden durch den Algorithmus verweigert.

Der Fehler lag nicht in der KI selbst, sondern in den zuvor ausgewählten Trainingsdaten. Das System war mit unzeitgemäßen Daten über die Einkommens- und Kreditverteilung zwischen Frauen und Männern aus einer Zeit gefüttert worden, in der Frauen aufgrund veralteter Rollenbilder grundsätzlich weniger arbeiteten und verdienten als Männer. Die Konsequenz war, dass sie auch weniger Kredite aufnahmen und zurückzahlten als Männer. Diese Informationen führten dazu, dass der Algorithmus Frauen grundsätzlich für weniger kreditwürdig und zuverlässig hielt, egal, wie hoch ihr tatsächliches Vermögen und ihre tatsächliche Kreditwürdigkeit waren.

Die gute Nachricht ist, dass suboptimale Trainingsdaten jederzeit korrigiert werden können. Im Idealfall sollte das allerdings passieren, bevor der Bias sich auf die Zufriedenheit von Nutzerinnen und Nutzern auswirken.

Verzerrungen können relativ einfach vermieden oder ausgemerzt werden, wenn Unternehmen einige wichtige Punkte beachten: Wenn die Entwicklerinnen und Entwickler wissen, woher ein Bias stammt, kann ein Algorithmus korrigiert werden. Deshalb ist es wichtig, die KI während der gesamten Laufzeit zu überwachen und zu prüfen. Professionelle KI-Anbieter setzen dies als Standard voraus und sorgen dafür, dass Anwendungen stetig optimiert werden und dauerhaft nach den festgelegten Richtlinien arbeiten und funktionieren. Grundsätzlich sollten Trainingsdaten immer wieder kritisch überprüft und regelmäßig hinterfragt werden.

Weiterhin wichtig ist schon von Anfang an die Auswahl des richtigen Entwicklerteams. Ein großer Indikator zur Einordnung von Trainingsdaten sind schützenswerte persönliche Merkmale wie Geschlecht, Herkunft oder Muttersprache. Hier spielt der Faktor Mensch eine entscheidende Rolle: Je diverser ein Team in der Entwicklung aufgestellt ist, desto höher ist die Wahrscheinlichkeit, dass eine suboptimale Datenauswahl schon früh auffällt.

Grund sind die unterschiedlichen Perspektiven, die fehlen können, wenn ein Team zu homogen ist (wenn es zum Beispiel ausschließlich aus weißen Europäern besteht, oder nur eine bestimmte Altersgruppe vertreten ist). Ein großes Problem stellten in der Vergangenheit sogenannte Weird Samples dar. Sie beschreiben die Daten von Menschen, die aus der westlichen Welt stammen, gebildet sind und Industrienationen und Demokratien entstammen (Western, educated, industrialized, rich and democratic). WEIRD – eine Gruppe, die in Studien meist überrepräsentiert ist, obwohl sie nur einen geringen Teil der Weltbevölkerung ausmacht. Hier ist es wichtig, dass Entwicklerinnen und Entwickler gezielt gegensteuern.

Mindestens genauso entscheidend ist die Nachvollziehbarkeit bei der Auswahl der Methodik: Stehen die Trainingsdaten bereit, muss das Team die passende Methodik auswählen, um die Daten zu verarbeiten. Dabei muss schon zu Beginn klar sein, welche Parameter am Ende die Effizienz des Modells bestimmen. Die Herausforderung ist, eine ausgewogene Entscheidung zwischen besonders effizienten und nachvollziehbaren Modellen zu finden.

Christophe Bourguignat, Zelros

„Grundsätzlich sollten Trainingsdaten immer wieder kritisch überprüft und regelmäßig hinterfragt werden.“

Christophe Bourguignat, Zelros

Modelle, die in ihrem Ablauf und der Herleitung der Ergebnisse zu 100 Prozent eindeutig und für die Entwicklerinnen und Entwickler nachvollziehbar sind, sind häufig deutlich weniger effizient, als sogenannte Black-Box-Modelle. Diese Modelle basieren auf Deep Learning und sind so intelligent, dass sich ihre Ergebnisse im Nachgang meistens nicht mit traditionellen Methoden nachvollziehen lassen. Die Entwicklerinnen und Entwickler können zwar nachrechnen, ob die Ergebnisse stimmen beziehungsweise realistisch sind – sie können aber nicht verstehen, wie genau die KI darauf gekommen ist. Die Herleitung liegt im Dunkeln, ist also eine Black Box. Geht es um das Ausmerzen von Bias, ist es allerdings in der Regel klüger, eine Methodik zu wählen, deren Entscheidungsgrundlage Entwicklerinnen und Entwickler vollständig nachvollziehen können.

Fazit

Das potenzielle Risiko des Entstehens einer Bias sollte Unternehmen nicht von dem Einsatz von KI abhalten. Mit dem richtigen Team, einer nachvollziehbaren Methodik und gut ausgewählten Trainingsdaten kann Fehlern frühzeitig entgegengewirkt werden. Verzerrungen, die trotz aller Vorsicht doch entstehen, sind durch konstante Kontrolle des laufenden Systems und entsprechende Korrekturen auch im Nachgang immer behebbar.

Über den Autor:

Christophe Bourguignat ist Chief Executive Officer und Co-Founder von Zelros. Er gründete das Unternehmen 2016 in Paris zusammen mit Fabien Vauchelles und Damien Philippon mit der Vision, ein auf die Versicherungsbranche spezialisiertes Softwareunternehmen aufzubauen. Sein Ziel ist es, die Digitalisierung in Versicherungsunternehmen voranzutreiben, deren Vertrieb sowie die Customer Journey zu optimieren. Bourguignat gründete zudem FrenchData im Jahr 2016, einen einflussreichen Think Tank zur Förderung der französischen Datenszene. Zuvor war er unter anderem bei der Versicherungsgruppe AXA als Big Data Lead tätig. Er besitzt eine rund 20-jährige Expertise im IT-Bereich, mit besonderem Fokus auf künstlicher Intelligenz, maschinellem Lernen, Cyber Security und Big-Data-Technologien. Christophe verfügt zudem über einen Master of Science in Ingenieurwissenschaften von der französischen Ingenieurschule CentraleSupelec.

 

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)