zapp2photo - stock.adobe.com
Künstliche Intelligenz muss von Menschen getestet werden
KI ist gerade das Thema, egal ob es um Risiken oder Chancen der Technologie geht. Bevor KI zum Einsatz kommt, muss sie aber richtig getestet und trainiert werden.
Künstliche Intelligenz (KI), ihre enormen Möglichkeiten, die ihr innewohnenden Risiken und ihre insgesamt tiefgreifenden Auswirkungen auf potenziell jede Branche sind das große Thema der Gegenwart. Obwohl die Technologie keineswegs neu ist – KI ist schon seit Jahrzehnten ein fester Bestandteil unseres Lebens –, ist das Neue ihre wachsende Beliebtheit beim Massenpublikum und die Bereitschaft der Menschen, KI-Lösungen anzunehmen und zu nutzen.
Doch trotz der Begeisterung für die Technologie gibt es viele Beispiele, die zeigen, dass KI noch lange nicht perfekt ist. Es gibt bereits zahlreiche Geschichten, in denen die generierten Inhalte und Antworten von harmlos falsch bis hin zu ernsthaft voreingenommen, schädlich oder hasserfüllt reichten. KI-gesteuerte Lösungen erfordern riesige Datenmengen, und wenn diese Daten voreingenommen, unzureichend oder anderweitig fehlerhaft sind, werden die Ergebnisse diese Fehler widerspiegeln.
Ein Beispiel für dieses Problem sind Inhalte, zum Beispiel von Chatbots, die von großen Sprachmodellen (Large Language Models, LLMs) erstellt werden, welche mit unzureichenden Daten entwickelt wurden. Je nachdem, mit welchen Daten das LLM trainiert wurde, ist es möglicherweise nicht in der Lage, umgangssprachliche Sprache oder Akzente zu verstehen. Infolgedessen können die Antworten des Chatbots variieren – von einfach nur falsch bis hin zu potenziell beleidigend. Das ist eine schreckliche Benutzererfahrung, die verheerende Folgen haben kann, insbesondere bei Anwendungen im Bereich der psychischen Gesundheit oder der Medizin.
Voreingenommenheit ist ein weiteres Problem. Die zweite jährliche Umfrage von Applause zu Chatbots, KI und Sprachanwendungen, die im März 2023 veröffentlicht wurde, untersuchte die Stimmung in Bezug auf KI-gestützte Chatbots und intelligente Sprachassistenten. Bei der Befragung zu generativer KI-Technologie wie ChatGPT äußerten 86 Prozent der mehr als 5.000 Befragten Bedenken gegen den Einsatz der Technologie aufgrund möglicher Antwortverzerrungen.
Wie kann man also schlechte oder schädliche Ergebnisse verhindern und die KI in die Lage versetzen, alle Menschen besser zu verstehen? Die Antwort ist einfach: Testen.
Bevor eine KI- oder Machine-Learning-Anwendung ein großes Publikum erreicht, sollte sie auf Herz und Nieren geprüft werden. Während der Algorithmus lernt, können voreingenommene oder falsche Schlussfolgerungen verstärkt werden, ohne dass die KI ihre Fehler bemerkt. Daher ist es wichtig, dass echte Menschen die Feinheiten der Verzerrung oder des Kontexts bewerten.
Testen, um Bias zu verhindern
Indem Algorithmen strengen Tests unterzogen werden, können verbesserungswürdige Bereiche identifiziert, die Modellleistung verbessert und zuverlässige und unverfälschte Ergebnisse gewährleistet werden. Der Testprozess sollte reale Szenarien und verschiedene Benutzerinteraktionen umfassen, die Einblicke in die Fähigkeiten und Grenzen des Algorithmus liefern. Der Testumfang muss an die Bedürfnisse des jeweiligen Modells angepasst werden. Ziel ist eine Überprüfung der funktionalen Fähigkeiten, der Genauigkeit der Antworten, Prüfung auf Verzerrungen/unangemessene Inhalte, Einhaltung der benutzerdefinierten Richtlinien und Feedback zur Erfahrung.
Um Verzerrungen zu reduzieren, kann beispielsweise mit Unterstützung eines externen Anbieters auf eine erweiterte globale Datenerfassungsinfrastruktur zurückgegriffen werden. Ein unabhängiger Anbieter kann Daten aus diversen Quellen sammeln und hat oft umfassendere und vielfältigere Datensätze für das Training der LLMs und generativen KI als ein einzelnes Unternehmen.
Beim Testen gibt es drei große Bereiche, auf die geachtet werden sollte. Genauigkeit und Vertrauen, Bias und unangemessene Inhalte, sowie die Einhaltung ethischer und gesetzlicher Vorschriften.
Genauigkeit und Vertrauen
Wie bei jeder Technologie müssen Nutzer Vertrauen in die Genauigkeit und Vertrauenswürdigkeit der Inhalte haben, damit sie KI-Anwendungen annehmen und verwenden. Wie bereits erwähnt, gibt es viele Beispiele für fehlerhafte und sogar gefährliche Inhalte, die von Anwendungen erzeugt wurden.
KI-Anwendungen sollen idealerweise stark personalisiert agieren können, daher kann die Bewertung der Genauigkeit eine Herausforderung darstellen. Die Tests sollten von Personen durchgeführt werden, die die beabsichtigte Benutzergruppe genau repräsentieren können. Wenn die Benutzergruppe breit gefächert ist und sich über große geografische Regionen erstreckt, sollten die Testpersonen ebenso vielfältig und weit verstreut sein.
Bias und unangemessene Inhalte
Bias ist ein bekanntes Problem bei KI. Da Algorithmen nur so gut sind wie die Datensätze, mit denen sie trainiert werden, muss bei der Auswahl der Datensätze oder der Datenerfassung auf Vielfalt geachtet werden. Besonders schnell entsteht Bias im Bereich von Bilderkennungssoftware. Dies ist eine Art von Anwendung, bei der Bias häufig erlebt wurde, da die Daten nicht das angemessene Maß an Vielfalt aufweisen und daher unangemessene oder schädliche Ergebnisse liefern. In diesem Fall sollten Trainingsdatensätze verschiedene Geschlechter, Gesichtszüge, Augenfarben, Frisuren, kulturelle Kleidung und mehr widerspiegeln.
„ Indem Algorithmen strengen Tests unterzogen werden, können verbesserungswürdige Bereiche identifiziert, die Modellleistung verbessert und zuverlässige und unverfälschte Ergebnisse gewährleistet werden.“
Rob Mason, Applause
Es gibt leider ausreichend Beispiele, bei denen die produzierten Inhalte falsch oder sogar schädlich sind. Eine Prüfung vor der Veröffentlichung würde dazu beitragen, diese Probleme aufzudecken, bevor sie die Öffentlichkeit erreichen, und das Feedback sollte für die laufende Schulung des Algorithmus genutzt werden.
Einhaltung gesetzlicher Vorschriften
Beim Testen ist es enorm wichtig, die Einhaltung gesetzlicher Vorschriften zu gewährleisten. Gemäß den Richtlinien des EU Accessibility Act und der Web Content Accessibility Guidelines (WCAG) sollten Unternehmen Anwendungen entwickeln, die für alle Menschen zugänglich sind.
In der Zwischenzeit, in der die EU dem AI Act den letzten Schliff gibt, wird es für Unternehmen außerdem immer wichtiger, die Leitplanken zu verstehen, innerhalb derer sie KI-Anwendungen legal betreiben und entwickeln können.
Da die Verbreitung von KI-Technologien die Unternehmenslandschaft weiter prägt, ist es für Unternehmen von entscheidender Bedeutung, in diesem Bereich die richtigen Entscheidungen zu treffen. Dazu gehören die ethische und legale Sammlung und Nutzung von Daten, um die Algorithmen zu trainieren, und auch, die Ergebnisse mit echten Menschen zu testen, die die nuancierten, hyperpersonalisierten Antworten auf Genauigkeit und Bias bewerten können. Nur dann kann die Technologie lernen, allen Nutzer sinnvolle und angemessene Inhalte zu liefern.
Über den Autor:
Rob Mason ist CTO bei Applause.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.