Definition

Transformer-Modell

Was ist ein Transformer-Modell?

Ein Transformer-Modell ist eine neuronale Netzwerkarchitektur, die automatisch eine Art von Eingabe in eine andere Art von Ausgabe umwandeln kann. Der Begriff wurde in einem Google Paper aus dem Jahr 2017 geprägt, in dem ein Weg gefunden wurde, ein neuronales Netzwerk für die Übersetzung von Englisch nach Französisch mit höherer Genauigkeit und einem Viertel der Trainingszeit anderer neuronaler Netzwerke zu trainieren.

Die Technik erwies sich als verallgemeinerungsfähiger, als den Autoren bewusst war, und Transformer wurden bei der Erstellung von Texten, Bildern und Roboteranweisungen eingesetzt. Sie können auch Beziehungen zwischen verschiedenen Arten von Daten modellieren, was als multimodale KI bezeichnet wird, um Anweisungen in natürlicher Sprache in Bilder oder Roboteranweisungen zu verwandeln.

Transformer sind in allen LLM-Anwendungen (Large Language Model) von entscheidender Bedeutung, darunter ChatGPT, Google Search, Dall-E und Microsoft Copilot.

Praktisch alle Anwendungen, die Natural Language Processing (NLP) nutzen, verwenden mittlerweile Transformer unter der Haube, weil sie besser funktionieren als frühere Ansätze. Forscher haben auch herausgefunden, dass Transformer lernen können, mit chemischen Strukturen zu arbeiten, die Faltung von Proteinen vorherzusagen und medizinische Daten in großem Umfang zu analysieren.

Ein wesentlicher Aspekt der Transformer ist die Nutzung eines KI-Konzepts, das Attention (Aufmerksamkeit) genannt wird, um das Gewicht verwandter Wörter hervorzuheben, die dabei unterstützen können, den Kontext für ein bestimmtes Wort oder Token, das eine andere Art von Daten beschreibt – wie zum Beispiel einen Ausschnitt eines Bildes oder einer Proteinstruktur – oder ein Sprachphonem zu beschreiben.

Das Aufmerksamkeitskonzept gibt es bereits seit den 1990er Jahren als Verarbeitungstechnik. Im Jahr 2017 schlug ein Team von Google-Mitarbeitern jedoch vor, Aufmerksamkeit zu nutzen, um die Bedeutung von Wörtern und die Struktur einer bestimmten Sprache direkt zu kodieren. Dies war revolutionär, denn es ersetzte einen zusätzlichen Kodierungsschritt durch ein spezielles neuronales Netzwerk. Außerdem eröffnete es die Möglichkeit, jede Art von Information virtuell zu modellieren und ebnete so den Weg für die außerordentlichen Durchbrüche, die in den letzten Jahren erzielt wurden.

Was kann ein Transformer-Modell?

Transformer verdrängen in vielen Anwendungen allmählich die bisher beliebtesten Arten von Deep-Learning-Architekturen neuronaler Netze, darunter rekurrente neuronale Netze (RNNs) und Convolutional Neural Network (CNN). RNNs waren ideal für die Verarbeitung von Datenströmen wie Sprache, Sätze und Code. Aber sie konnten nur kürzere Strings auf einmal verarbeiten. Neuere Techniken, wie zum Beispiel das Langzeitgedächtnis, sind RNN-Ansätze, die längere Strings unterstützen, aber immer noch begrenzt und langsam sind. Im Gegensatz dazu können Transformer längere Reihen verarbeiten, und sie können jedes Wort oder Token parallel verarbeiten, wodurch sie effizienter skalieren können.

CNNs sind ideal für die Verarbeitung von Daten, zum Beispiel für die parallele Analyse mehrerer Regionen eines Fotos auf Ähnlichkeiten in Merkmalen wie Linien, Formen und Texturen. Diese Netzwerke sind für den Vergleich nahe gelegener Bereiche optimiert. Transformer-Modelle, wie der 2021 vorgestellte Vision Transformer, scheinen dagegen besser in der Lage zu sein, weit voneinander entfernte Regionen zu vergleichen. Transformer können auch besser mit ungelabelten Daten arbeiten.

Transformer können lernen, die Bedeutung eines Textes effizient darzustellen, indem sie größere Mengen an ungelabelten Daten analysieren. Dadurch können Forscher Transformer so skalieren, dass sie Hunderte von Milliarden und sogar Billionen von Merkmalen unterstützen. In der Praxis dienen die mit ungelabelten Daten erstellten vortrainierten Modelle nur als Ausgangspunkt für die weitere Verfeinerung für eine bestimmte Aufgabe mit gelabelten Daten. Dies ist jedoch akzeptabel, da der zweite Schritt weniger Fachwissen und Rechenleistung erfordert.

Transformer-Modellarchitektur

Eine Transformer-Architektur besteht aus einem Encoder und einem Decoder, die zusammenarbeiten. Der Aufmerksamkeitsmechanismus ermöglicht es dem Transformer, die Bedeutung von Wörtern auf der Grundlage der geschätzten Bedeutung anderer Wörter oder Token zu kodieren. Auf diese Weise können Transformer alle Wörter oder Token parallel verarbeiten, was zu einer schnelleren Leistung führt und das Wachstum immer größerer LLMs fördert.

Dank des Aufmerksamkeitsmechanismus wandelt der Encoder-Block jedes Wort oder Token in Vektoren um, die durch andere Wörter weiter gewichtet werden. In den folgenden beiden Sätzen würde die Bedeutung von sie beispielsweise anders gewichtet werden, da das Wort gefüllt in geleert geändert wurde:

  1. Er goss den Krug in die Tasse und füllte sie.
  2. Er schüttete den Krug in die Tasse und leerte sie.

Der Aufmerksamkeitsmechanismus würde es im ersten Satz mit der gefüllten Tasse und im zweiten Satz mit der geleerten Tasse in Verbindung bringen.

Der Decoder kehrt den Prozess in der Zieldomäne im Wesentlichen um. Der ursprüngliche Anwendungsfall war die Übersetzung des Englischen ins Französische, aber derselbe Mechanismus kann kurze englische Fragen und Anweisungen in längere Antworten übersetzen. Umgekehrt kann er einen längeren Artikel in eine prägnantere Zusammenfassung übersetzen.

Architektur eines Transformer-Modells
Abbildung 1: Architektur eines Transformer-Modells (Quelle: Attention Is All You Need, Cornell University).

Training des Transformer-Modells

Das Training eines Transformers besteht aus zwei wichtigen Phasen. In der ersten Phase verarbeitet ein Transformer eine große Menge an ungelabelten Daten, um die Struktur der Sprache oder eines Phänomens, wie zum Beispiel der Proteinfaltung, zu erlernen und um herauszufinden, wie nahe beieinander liegende Elemente sich gegenseitig zu beeinflussen scheinen. Dies ist ein kostspieliger und energieintensiver Aspekt des Prozesses. Es kann Millionen von Euro kosten, einige der größten Modelle zu trainieren.

Sobald das Modell trainiert ist, ist es hilfreich, es für eine bestimmte Aufgabe fein abzustimmen. Ein Technologieunternehmen kann einen Chatbot so abstimmen, dass er auf verschiedene Kundendienst- und technische Support-Anfragen je nach Kenntnisstand des Benutzers unterschiedlich detailliert antwortet. Eine Anwaltskanzlei kann ein Modell für die Analyse von Verträgen anpassen. Ein Entwicklungsteam kann das Modell auf seine eigene umfangreiche Codebibliothek und seine eigenen Codierungskonventionen abstimmen.

Der Feinabstimmungsprozess erfordert deutlich weniger Fachwissen und Rechenleistung. Befürworter der Transformer argumentieren, dass sich der hohe Aufwand für die Schulung größerer Allzweckmodelle auszahlen kann, weil die Anpassung des Modells für so viele verschiedene Anwendungsfälle Zeit und Geld spart.

Die Anzahl der Merkmale in einem Modell wird manchmal als Indikator für die Leistung des Modells herangezogen, anstatt aufschlussreichere Metriken zu verwenden. Die Anzahl der Funktionen – oder die Größe des Modells – steht jedoch in keinem direkten Zusammenhang mit der Leistung oder dem Nutzen. Google hat beispielsweise vor kurzem damit experimentiert, LLMs effizienter zu trainieren, indem es eine Mixtur von Experten verwendete, die sich als etwa siebenmal effizienter erwies als andere Modelle. Obwohl einige dieser Modelle mehr als eine Billion Parameter hatten, waren sie weniger präzise als Modelle mit hundertmal weniger Parametern.

Meta hat jedoch kürzlich berichtet, dass sein Large Language Model Meta AI (Llama) mit 13 Milliarden Parametern ein GPT-Modell (Generative Pre-Trained Transformer) mit 175 Milliarden Parametern bei wichtigen Benchmarks übertroffen hat. Eine 65-Milliarden-Parameter-Variante von Llama erreichte sogar die Leistung von Modellen mit über 500 Milliarden Parametern.

Anwendungen von Transformer-Modellen

Transformer können auf praktisch jede Aufgabe angewendet werden, die einen bestimmten Eingabetyp verarbeitet, um eine Ausgabe zu erzeugen. Beispiele hierfür sind die folgenden Anwendungsfälle:

  • Übersetzen von einer Sprache in eine andere.
  • Programmierung von Chatbots, die ansprechender und nützlicher sind.
  • Zusammenfassen langer Dokumente.
  • Generierung eines langen Dokuments aus einer kurzen Eingabeaufforderung (Prompt).
  • Generierung chemischer Strukturen von Medikamenten auf der Grundlage einer bestimmten Eingabeaufforderung.
  • Erzeugen von Bildern aus einer Textabfrage.
  • Erstellen von Bildunterschriften für ein Bild.
  • Erstellen eines RPA-Skripts (Robotic Process Automation) aus einer kurzen Beschreibung.
  • Vorschläge zur Codevervollständigung auf der Grundlage von vorhandenem Code.

Implementierungen von Transformer-Modellen

Die Transformer-Implementierungen werden immer umfangreicher und unterstützen neue Anwendungsfälle oder verschiedene Bereiche wie Medizin, Wissenschaft oder Geschäftsanwendungen. Im Folgenden finden Sie einige der vielversprechendsten Transformer-Implementierungen:

  • Googles Bidirectional Encoder Representations from Transformers war eine der ersten LLMs, die auf Transformer basierte.
  • Das OpenAI GPT-Modell folgte diesem Beispiel und durchlief mehrere Iterationen, darunter GPT-2, GPT-3, GPT-3.5, GPT-4 und ChatGPT.
  • Meta Llama erreicht eine vergleichbare Leistung mit Modellen, die zehnmal so groß sind.
  • Das Pathways Language Model von Google verallgemeinert und führt Aufgaben in verschiedenen Bereichen aus, darunter Text, Bilder und Robotersteuerung.
  • Dall-E von OpenAI erstellt Bilder aus einer kurzen Textbeschreibung.
  • GatorTron von der University of Florida und Nvidia analysiert unstrukturierte Daten aus Krankenakten.
  • DeepMinds Alphafold 2 beschreibt, wie sich Proteine falten.
  • MegaMolBART von AstraZeneca und Nvidia generiert neue Arzneimittelkandidaten auf der Grundlage von chemischen Strukturdaten.
Diese Definition wurde zuletzt im Januar 2024 aktualisiert

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)