Laurent - stock.adobe.com

GAN versus VAE: Was ist der bessere generative KI-Ansatz?

Generative KI ist auf dem Vormarsch. Zwei beliebte Ansätze sind GAN, das zur Generierung von Multimedia verwendet wird, und VAE, das eher für die Analysen eingesetzt wird.

Generative Adversarial Networks (GAN) und Variational Autoencoders (VAE) sind zwei der beliebtesten Ansätze für die Erstellung von KI-generierten Inhalten. Im Allgemeinen werden GANs eher für die Erstellung von Multimedia-Inhalten verwendet, während VAEs eher in der Signalanalyse zum Einsatz kommen.

Wie äußert sich das in der realen Welt? Generative KI-Techniken unterstützen bei der Erstellung von KI-Modellen, synthetischen Daten und realistischen Multimedia-Inhalten wie Stimmen und Bildern. Obwohl diese Techniken manchmal für die Erstellung von Deepfakes verwendet werden, können sie auch realistische Synchronisationen für Filme erstellen und Bilder aus kurzen Textbeschreibungen erzeugen. Sie können auch Ziele für die Medikamentenentwicklung generieren, Empfehlungen für das Produktdesign aussprechen und Sicherheitsalgorithmen verbessern.

Wie funktionieren GANs?

Ian Goodfellow und seine Forscherkollegen von der University of Montreal haben das erste Generative Adversarial Network im Jahr 2014 vorgestellt. Sie haben sich bei der Generierung vieler Arten von realistischen Daten als äußerst vielversprechend erwiesen. Laut Yann LeCun, Chief AI Scientist bei Meta, sind GANs und ihre Varianten die interessanteste Idee der letzten zehn Jahre im Bereich des maschinellen Lernens.

Zunächst einmal wurden GANs eingesetzt, um realistische Sprache zu erzeugen, einschließlich der Anpassung von Stimmen und Lippenbewegungen, um bessere Übersetzungen zu produzieren. Sie haben auch Bilder übersetzt, zwischen Tag und Nacht unterschieden und Tanzbewegungen zwischen Körpern abgegrenzt. In Kombination mit anderen KI-Techniken verbessern sie die Sicherheit und erstellen bessere KI-Klassifikatoren.

Die eigentliche Funktionsweise der GANs besteht aus dem Zusammenspiel zweier neuronaler Netze, die zusammenarbeiten, um Daten zu generieren und dann zu klassifizieren, die für die Realität repräsentativ sind. GANs erzeugen Inhalte mit Hilfe eines neuronalen Generator-Netzwerks, das mit einem zweiten neuronalen Netzwerk getestet wird: dem Diskriminator, der feststellt, ob die Inhalte realistisch aussehen. Dieses Feedback unterstützt dabei, ein besseres Generator-Netzwerk zu trainieren. Der Diskriminator kann auch gefälschte Inhalte oder Inhalte, die nicht zur Domäne gehören, erkennen. Mit der Zeit werden beide neuronalen Netze besser und lernen durch das Feedback, Daten zu erzeugen, die der Realität so nahe wie möglich kommen.

Wie funktionieren VAEs?

VAEs wurden ebenfalls 2014 vorgestellt, allerdings von Diederik Kingma, einem Forscher bei Google, und Max Welling, Forschungsprofessor für maschinelles Lernen an der Universität Amsterdam. VAEs versprechen ebenfalls, effektivere Klassifizierungsmaschinen für verschiedene Aufgaben mit unterschiedlichen Mechanismen zu schaffen. Im Kern basieren sie auf Autokodierern mit neuronalen Netzwerken, die aus zwei neuronalen Netzwerken bestehen: einem Encoder und einem Decoder. Das Encoder-Netzwerk optimiert die Datendarstellung, während das Decoder-Netzwerk für effizientere Wege der Regeneration des ursprünglichen Datensatzes optimiert ist.

Traditionell bereinigen Autoencoder-Techniken Daten, verbessern die prädiktive Analyse, komprimieren Daten und reduzieren die Dimensionalität von Datensätzen für andere Algorithmen. VAEs gehen noch einen Schritt weiter und minimieren die Fehler zwischen dem Rohsignal und der Rekonstruktion.

„VAEs sind außerordentlich stark, wenn es darum geht, mit einem reduzierten Vektor nahezu originalgetreue Inhalte zu liefern. Sie ermöglichen es uns auch, nicht vorhandene Inhalte zu generieren, die lizenzfrei verwendet werden können“, sagt Tiago Cardoso, Group Product Manager bei Hyland Software.

Der größte Unterschied bei der Gegenüberstellung von GANs und VAEs ist die Art und Weise, wie sie angewendet werden. Pratik Agrawal, Partner im Bereich digitale Transformation und KI bei der Unternehmensberatung Kearney, sagt, dass GANs in der Regel bei jeder Art von Bildmaterial oder visuellen Daten eingesetzt werden. Er ist der Meinung, dass VAEs besser für Signalverarbeitungsanwendungen geeignet sind, zum Beispiel für die Erkennung von Anomalien für die vorausschauende Wartung oder für Sicherheitsanalysen.

Anwendungsfälle für generative KI

Generative KI-Techniken wie GANs und VAEs können in einer Vielzahl von Anwendungsfällen eingesetzt werden, zum Beispiel in den folgenden:

  • Implementierung von Chatbots für den Kundendienst und technischen Support.
  • Einsatz von Deepfakes zur Nachahmung von Menschen.
  • Verbesserung der Synchronisation von Filmen.
  • Schreiben von E-Mail-Antworten, Dating-Profilen, Lebensläufen und Hausarbeiten.
  • Erstellen von fotorealistischer Kunst in einem bestimmten Stil.
  • Vorschlagen von neuen Medikamenten zum Testen.
  • Entwerfen von physischen Produkten und Gebäuden.
  • Optimieren neuer Chip-Designs.
  • Das Schreiben von Musik in einem bestimmten Stil oder Ton.

„Da es sich sowohl bei VAEs als auch bei GANs um neuronale Netze handelt, können ihre Anwendungsmöglichkeiten in der Praxis begrenzt sein“, sagt Agrawal. Datenwissenschaftler und Entwickler, die mit diesen Techniken arbeiten, müssen die Ergebnisse auf die Eingaben zurückführen und Sensitivitätsanalysen durchführen. Außerdem ist es wichtig, Faktoren wie die Nachhaltigkeit dieser Lösungen zu berücksichtigen und zu klären, wer sie betreibt, wie oft sie gewartet werden und welche technischen Ressourcen für ihre Aktualisierung erforderlich sind.

Es ist erwähnenswert, dass in letzter Zeit eine Vielzahl anderer Techniken in der generativen KI aufgetaucht sind, darunter Diffusionsmodelle, die für die Generierung und Optimierung von Bildern verwendet werden, Transformer wie ChatGPT von OpenAI, die häufig bei der Spracherzeugung eingesetzt werden, und neuronale Strahlungsfelder (Neural Radiance Fields, NeRFs), eine neue Technik, die zur Erstellung realistischer 3D-Medien aus 2D-Daten verwendet wird.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)