Definition

Bestärkendes Lernen (Reinforcement Learning)

Was ist Bestärkendes Lernen (Reinforcement Learning)?

Bestärkendes Lernen oder Reinforcement Learning ist eine Trainingsmethode des maschinellen Lernens, die auf der Belohnung gewünschter und der Bestrafung unerwünschter Verhaltensweisen beruht. Im Allgemeinen ist ein Agent mit bestärktem Lernen – die zu trainierende Einheit – in der Lage, seine Umgebung wahrzunehmen und zu interpretieren, Aktionen durchzuführen und durch Versuch und Irrtum (Trial and Error) zu lernen.

Reinforcement Learning ist einer von mehreren Ansätzen, die Entwickler verwenden, um ML-Systeme zu trainieren. Dieser Ansatz ist deshalb so wichtig, weil er einen Agenten, sei es ein Feature in einem Videospiel oder ein Roboter in einer industriellen Umgebung, in die Lage versetzt, zu lernen, sich in der komplexen Umgebung zurechtzufinden, für die er geschaffen wurde. Im Laufe der Zeit lernt der Agent durch ein Feedback-System, das in der Regel Belohnungen und Bestrafungen umfasst, aus seiner Umgebung und optimiert sein Verhalten.

Wie funktioniert das bestärkende Lernen?

Beim bestärkenden Lernen schaffen die Entwickler eine Methode, um erwünschtes Verhalten zu belohnen und negatives Verhalten zu bestrafen. Bei dieser Methode werden den erwünschten Aktionen positive Werte zugewiesen, um den Agenten zu ermutigen, sie auszuführen, während unerwünschten Verhaltensweisen negative Werte zugewiesen werden, um sie zu entmutigen. Dadurch wird der Agent darauf programmiert, langfristige und maximale Gesamtbelohnungen anzustreben, um eine optimale Lösung zu erreichen.

Diese langfristigen Ziele tragen dazu bei, dass der Agent nicht an weniger wichtigen Zielen hängen bleibt. Mit der Zeit lernt der Agent, das Negative zu vermeiden und das Positive zu suchen. Diese Lernmethode wurde von der künstlichen Intelligenz (KI) übernommen, um das unüberwachte (unsupervised) maschinelle Lernen durch Belohnungen oder positive Verstärkung und Bestrafungen oder negative Verstärkung zu steuern.

Der Markov-Entscheidungsprozess dient als Grundlage für Systeme mit Reinforcement Learning. Bei diesem Prozess befindet sich ein Agent in einem bestimmten Zustand innerhalb einer Umgebung; er muss die bestmögliche Aktion aus mehreren potenziellen Aktionen auswählen, die er in seinem aktuellen Zustand ausführen kann. Bestimmte Aktionen bieten Belohnungen zur Motivation. In seinem nächsten Zustand stehen ihm neue belohnende Aktionen zur Verfügung. Im Laufe der Zeit ergibt sich die kumulative Belohnung aus der Summe der Belohnungen, die der Agent durch die von ihm gewählten Aktionen erhält.

Abbildung 1: Beim Training eines Logistikroboters mit Hilfe von Reinforcement Learning ist der Roboter der Agent, der in einer Lagerumgebung agiert. Er wählt verschiedene Aktionen aus, die mit Rückmeldungen, wie Belohnungen und Informationen oder Beobachtungen aus der Umgebung, beantwortet werden. Alle Rückmeldungen helfen dem Agenten, eine Strategie für zukünftige Aktionen zu entwickeln.
Abbildung 1: Beim Training eines Logistikroboters mit Hilfe von Reinforcement Learning ist der Roboter der Agent, der in einer Lagerumgebung agiert. Er wählt verschiedene Aktionen aus, die mit Rückmeldungen, wie Belohnungen und Informationen oder Beobachtungen aus der Umgebung, beantwortet werden. Alle Rückmeldungen helfen dem Agenten, eine Strategie für zukünftige Aktionen zu entwickeln.

Anwendungen und Beispiele für bestärkendes Lernen

Obwohl das bestärkende Lernen im Bereich der künstlichen Intelligenz auf großes Interesse stößt, sind die Verbreitung und die Anwendung in der Praxis noch begrenzt. Dennoch gibt es eine Fülle von Forschungsarbeiten über theoretische Anwendungen, und es gibt einige erfolgreiche Anwendungsfälle.

Zu den aktuellen Anwendungen gehören unter anderem die folgenden:

  • Spiele.
  • Verwaltung von Ressourcen.
  • Personalisierte Empfehlungen.
  • Robotik.

Spiele sind wahrscheinlich die häufigste Anwendung für das Reinforcement Learning, da es in zahlreichen Spielen übermenschliche Leistungen erzielen kann. Ein gängiges Beispiel ist das Spiel Pac-Man.

Ein lernender Algorithmus, der Pac-Man spielt, könnte die Fähigkeit haben, sich in eine von vier möglichen Richtungen zu bewegen, sofern er nicht behindert wird. Anhand von Pixeldaten könnte ein Agent eine numerische Belohnung für das Ergebnis einer Bewegungseinheit erhalten: 0 für leere Felder, 1 für Pellets, 2 für Früchte, 3 für Power-Pellets, 4 für Geister-Power-Pellets, 5 für das Einsammeln aller Pellets zum Abschluss eines Levels und einen 5-Punkte-Abzug für die Kollision mit einem Geist. Der Agent beginnt mit einem zufallsgesteuerten Spiel und geht dann zu einem anspruchsvolleren Spiel über, bei dem er lernt, alle Pellets zu sammeln, um das Level zu beenden. Mit der Zeit kann ein Agent sogar Taktiken erlernen, wie zum Beispiel das Sparen von Energiepellets, bis sie zur Selbstverteidigung benötigt werden.

Bestärkendes Lernen kann in jeder Situation funktionieren, solange eine klare Belohnung eingesetzt werden kann. Bei der Verwaltung von Unternehmensressourcen weisen Bestärkungsalgorithmen begrenzte Ressourcen verschiedenen Aufgaben zu, solange es ein Gesamtziel gibt, das sie zu erreichen versuchen. Ein Ziel in diesem Fall wäre es, Zeit zu sparen oder Ressourcen zu schonen.

In der Robotik hat das verstärkende Lernen seinen Weg in begrenzte Tests gefunden. Diese Art des maschinellen Lernens kann Roboter in die Lage versetzen, Aufgaben zu erlernen, die ein menschlicher Lehrer nicht vorführen kann, eine erlernte Fähigkeit an eine neue Aufgabe anzupassen und eine Optimierung zu erreichen, selbst wenn keine analytische Formulierung verfügbar ist.

Reinforcement Learning wird auch in der Betriebsforschung, der Informationstheorie, der Spieltheorie, der Kontrolltheorie, der simulationsbasierten Optimierung, den Multiagentensystemen, der Schwarmintelligenz, der Statistik, den genetischen Algorithmen und den laufenden Bemühungen um industrielle Automatisierung eingesetzt.

Herausforderungen bei der Anwendung des bestärkenden Lernens

Das bestärkende Lernen hat zwar ein großes Potenzial, bringt aber auch einige Nachteile mit sich. Es kann schwierig zu implementieren sein und bleibt in seiner Anwendung begrenzt. Eines der Hindernisse für den Einsatz dieser Art des maschinellen Lernens ist die Abhängigkeit von der Erforschung der Umgebung.

Wenn man beispielsweise einen Roboter einsetzt, der sich auf bestärkendes Lernen verlässt, um sich in einer komplexen physischen Umgebung zurechtzufinden, wird er neue Zustände suchen und verschiedene Aktionen ausführen, während er sich bewegt. Bei dieser Art von Reinforcement-Learning-Problem ist es jedoch schwierig, in einer realen Umgebung stets die besten Aktionen zu wählen, da sich die Umgebung häufig ändert.

Die Zeit, die erforderlich ist, um sicherzustellen, dass das Lernen mit dieser Methode richtig durchgeführt wird, kann die Nützlichkeit dieser Methode einschränken und ist sehr rechenintensiv. Mit zunehmender Komplexität der Trainingsumgebung steigen auch die Anforderungen an Zeit und Rechenressourcen.

Das überwachte Lernen (Supervised Learning) kann Unternehmen schnellere und effizientere Ergebnisse liefern als das bestärkende Lernen, wenn die entsprechende Datenmenge vorhanden ist, da es mit weniger Ressourcen eingesetzt werden kann.

Gängige Algorithmen des Reinforcement Learning

Der Bereich des verstärkenden Lernens bezieht sich nicht auf einen bestimmten Algorithmus, sondern besteht aus mehreren Algorithmen, die etwas unterschiedliche Ansätze verfolgen. Die Unterschiede liegen hauptsächlich in den verschiedenen Strategien, die sie zur Erkundung ihrer Umgebung verwenden:

  • Zustand-Aktion-Belohnung-Zustand-Aktion (State-Action-Reward-State-Action). Bei diesem Reinforcement-Learning-Algorithmus wird dem Agenten zunächst eine so genannte Strategie vorgegeben. Die Bestimmung des optimalen, auf einer Strategie basierenden Ansatzes erfordert die Betrachtung der Wahrscheinlichkeit, dass bestimmte Aktionen zu Belohnungen oder vorteilhaften Zuständen führen, um die Entscheidungsfindung zu steuern.
  • Q-Lernen. Dieser Ansatz des bestärkenden Lernens verfolgt den entgegengesetzten Ansatz. Der Agent erhält keine Richtlinien und lernt den Wert einer Aktion durch die Erkundung seiner Umgebung. Dieser Ansatz ist nicht modellbasiert, sondern ist eher selbstgesteuert. Echte Implementierungen des Q-Learnings werden häufig in Python programmiert.
  • Tiefe Q-Netzwerke. In Kombination mit Deep Q-Learning verwenden diese Algorithmen neuronale Netze zusätzlich zu den Techniken des Reinforcement Learning. Sie werden auch als Deep Reinforcement Learning bezeichnet und verwenden den Ansatz der selbstgesteuerten Umgebungsexploration des Reinforcement Learning. Als Teil des Lernprozesses basieren diese Netze zukünftige Aktionen auf einer Zufallsstichprobe vergangener positiver Aktionen.
Abbildung 2: Ein neuronales Netz besteht aus einer Reihe von Algorithmen, die dem menschlichen Gehirn sehr ähnlich sind. Diese Algorithmen sind darauf ausgelegt, Muster zu erkennen.
Abbildung 2: Ein neuronales Netz besteht aus einer Reihe von Algorithmen, die dem menschlichen Gehirn sehr ähnlich sind. Diese Algorithmen sind darauf ausgelegt, Muster zu erkennen.

Wie unterscheidet sich das verstärkende Lernen vom überwachten (supervised) und unüberwachten (unsupervised) Lernen?

Das bestärkende Lernen wird als eigener Zweig des maschinellen Lernens betrachtet. Es weist jedoch einige Ähnlichkeiten mit anderen Arten des maschinellen Lernens auf, die sich in die folgenden vier Bereiche unterteilen lassen:

  • Überwachtes Lernen. Beim überwachten Lernen (Supervised Learning) trainieren die Algorithmen auf einem Bestand an markierten Daten. Algorithmen des überwachten Lernens können nur Attribute lernen, die im Datensatz angegeben sind. Eine häufige Anwendung des überwachten Lernens sind Bilderkennungsmodelle. Diese Modelle erhalten einen Satz markierter Bilder und lernen, gemeinsame Attribute von vordefinierten Formen zu unterscheiden.
  • Unüberwachtes Lernen. Beim unüberwachten Lernen (Unsupervised Learning) lassen die Entwickler die Algorithmen auf völlig unmarkierte Daten los. Die Algorithmen lernen, indem sie ihre eigenen Beobachtungen über Datenmerkmale katalogisieren, ohne dass ihnen gesagt wird, wonach sie suchen sollen.
  • Semi-überwachtes Lernen. Bei dieser Methode (Semisupervised Learning) wird ein Mittelweg beschritten. Die Entwickler geben einen relativ kleinen Satz von gekennzeichneten Trainingsdaten sowie einen größeren Korpus von nicht gekennzeichneten Daten ein. Der Algorithmus wird dann angewiesen, das, was er aus den beschrifteten Daten lernt, auf die nicht beschrifteten Daten zu übertragen und Schlussfolgerungen aus dem gesamten Satz zu ziehen.
  • Reinforcement Learning. Hier wird ein anderer Ansatz verfolgt. Der Agent befindet sich in einer Umgebung mit klaren Parametern, die vorteilhafte und nicht vorteilhafte Aktivitäten definieren, und einem übergeordneten Ziel, das es zu erreichen gilt.

Das bestärkende Lernen ähnelt dem überwachten Lernen insofern, als die Entwickler den Algorithmen bestimmte Ziele vorgeben und Belohnungs- und Bestrafungsfunktionen definieren müssen. Das bedeutet, dass der Umfang der expliziten Programmierung größer ist als beim unüberwachten Lernen. Sobald diese Parameter jedoch festgelegt sind, arbeitet der Algorithmus selbstständig – er ist also selbstbestimmter als Algorithmen des überwachten Lernens. Aus diesem Grund wird das bestärkende Lernen manchmal als ein Zweig des semi-überwachten Lernens bezeichnet; in Wahrheit wird es jedoch meist als eine eigene Art des maschinellen Lernens anerkannt.

Abbildung 3: Reinforcement Learning ist eine von vier Arten von Trainingsansätzen für maschinelle Lernmodelle.
Abbildung 3: Reinforcement Learning ist eine von vier Arten von Trainingsansätzen für maschinelle Lernmodelle.

Die Zukunft des bestärkenden Lernens

Es wird prognostiziert, dass das Reinforcement Learning in der Zukunft der KI eine größere Rolle spielen wird. Die anderen Ansätze zum Trainieren von Algorithmen für maschinelles Lernen erfordern große Mengen bereits vorhandener Trainingsdaten. Agenten mit bestärkendem Lernen hingegen benötigen Zeit, um durch Interaktion mit ihrer Umgebung allmählich zu lernen, wie sie funktionieren. Trotz dieser Herausforderungen wird erwartet, dass verschiedene Branchen das Potenzial des Reinforcement Learning weiter erforschen werden.

Reinforcement Learning hat sich bereits in verschiedenen Bereichen als vielversprechend erwiesen. So verwenden Marketing- und Werbefirmen auf diese Weise trainierte Algorithmen für Empfehlungsmaschinen. Hersteller nutzen das bestärkende Lernen, um ihre Robotersysteme der nächsten Generation zu trainieren.

Wissenschaftler der KI-Tochtergesellschaft von Alphabet, Google DeepMind, haben vorgeschlagen, dass das bestärkende Lernen den derzeitigen Stand der KI – oft als enge KI bezeichnet – zu ihrer theoretischen Endform der allgemeinen künstlichen Intelligenz bringen könnte. Sie glauben, dass Maschinen, die durch Reinforcement Learning lernen, schließlich empfindungsfähig werden und unabhängig von menschlicher Aufsicht arbeiten können.

Diese Definition wurde zuletzt im Juni 2024 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung