Dall-E
Was ist Dall-E?
Dall-E ist eine generative KI-Technologie, die es Benutzern ermöglicht, neue Bilder anhand von Text- und Grafikvorgaben zu erstellen. Dall-E ist ein neuronales Netzwerk, das in der Lage ist, nach den Vorgaben des Benutzers völlig neue Bilder in einer beliebigen Anzahl verschiedener Stile zu erzeugen.
Der Name Dall-E ist eine Hommage an die beiden unterschiedlichen Kernthemen der Technologie und verweist auf das Ziel der Verschmelzung von Kunst und KI-Technologie. Der erste Teil (DALL) soll an den berühmten spanischen Surrealisten Salvador Dali erinnern, während der zweite Teil (E) sich auf den fiktiven Disney-Roboter Wall-E bezieht. Die Kombination der beiden Namen spiegelt die abstrakte und etwas surreale Anschaulichkeit der Technologie wider, die von einer Maschine automatisiert wird.
Dall-E wurde von dem KI-Anbieter OpenAI entwickelt und im Januar 2021 erstmals vorgestellt. Die Technologie verwendet Deep-Learning-Modelle zusammen mit dem Large Language Model (LLM) GPT-3 als Grundlage, um natürlichsprachliche Benutzereingaben zu verstehen und neue Bilder zu erzeugen.
Dall-E ist eine Weiterentwicklung eines Konzepts, das OpenAI erstmals im Juni 2020 erwähnte. Es hieß ursprünglich Image GPT und war ein erster Versuch zu demonstrieren, wie ein neuronales Netzwerk zur Erstellung neuer hochwertiger Bilder eingesetzt werden kann. Mit Dall-E war OpenAI in der Lage, das ursprüngliche Konzept von Image GPT so zu erweitern, dass Benutzer neue Bilder mit einer Textaufforderung erzeugen können, ähnlich wie GPT-3 neuen Text als Reaktion auf natürlichsprachliche Textaufforderungen erzeugen kann.
Die Technologie hinter Dall-E gehört zu einer Kategorie der KI, die manchmal als generatives Design bezeichnet wird, und konkurriert mit anderen ähnlichen Technologien wie Stable Diffusion und Midjourney.
Wie funktioniert Dall-E?
Dall-E arbeitet mit einer Reihe von Technologien, darunter natürliche Sprachverarbeitung (Natural Language Processing, NLP), große Sprachmodelle (LLM) und Diffusionsverarbeitung.
Dall-E wurde mit einem Teil des GPT-3 LLM erstellt. Anstelle der vollen 175 Milliarden Parameter, die GPT-3 bietet, verwendet Dall-E nur 12 Milliarden Parameter in einem Ansatz, der für die Bilderzeugung optimiert wurde. Genau wie das GPT-3 LLM verwendet auch Dall-E ein neuronales Transformer-Netz – auch einfach als Transformer bezeichnet –, um das Modell in die Lage zu versetzen, Verbindungen zwischen verschiedenen Konzepten herzustellen und zu verstehen.
Technisch gesehen wurde der Ansatz, der Dall-E ermöglicht, ursprünglich von Open AI-Forschern als Zero-Shot Text-to-Image Generation beschrieben und in einem 20-seitigen Forschungspapier (PDF) erläutert, das im Februar 2021 veröffentlicht wurde. Zero-Shot ist ein KI-Ansatz, bei dem ein Modell eine Aufgabe, wie zum Beispiel die Erzeugung eines völlig neuen Bildes, unter Verwendung von Vorwissen und verwandten Konzepten ausführen kann.
Um zu beweisen, dass das Dall-E-Modell in der Lage war, Bilder korrekt zu generieren, hat OpenAI auch das CLIP-Modell (Contrastive Language-Image Pre-training) entwickelt, das auf 400 Millionen markierten Bildern trainiert wurde. OpenAI nutzte CLIP, um die Ergebnisse von Dall-E zu bewerten, indem es analysierte, welche Bildunterschrift für ein generiertes Bild am besten geeignet ist.
Die erste Iteration von Dall-E (Dall-E 1) generierte Bilder aus Text mit einer Technologie, die als Discreet Variational Auto-Encoder (dVAE) bekannt ist und in gewisser Weise auf der Forschung der DeepMind-Abteilung von Alphabet mit dem Vector Quantized Variational AutoEncoder basiert.
Dall-E 2 hat die Methoden der ersten Generation verbessert, um noch hochwertigere und fotorealistischere Bilder zu erzeugen. Dall-E 2 arbeitet unter anderem mit einem Diffusionsmodell, das Daten aus dem CLIP-Modell integriert, um eine höhere Bildqualität zu erzeugen.
Dall-E Anwendungsfälle
Da es sich um eine generative KI-Technologie handelt, gibt es eine Vielzahl von Anwendungsfällen, in denen Dall-E Einzelpersonen und Unternehmen unterstützen kann:
- Kreative Inspiration. Die Technologie kann eingesetzt werden, um einen kreativen Menschen zu inspirieren, etwas Neues zu schaffen. Sie kann auch als Ergänzung zu einem bestehenden kreativen Prozess verwendet werden.
- Unterhaltung. Die mit Dall-E erstellten Bilder könnten in Büchern oder Spielen verwendet werden. Dall-E geht über die Möglichkeiten herkömmlicher computergenerierter Bilder (Computer-generated Imagery, CGI) hinaus, da das Prompt-System einfacher zu benutzen ist, um Grafiken zu erstellen.
- Bildung. Lehrer und Pädagogen können Dall-E verwenden, um Bilder zur Erklärung verschiedener Konzepte zu erstellen.
- Werbung und Marketing. Die Fähigkeit, völlig einzigartige und neuartige Bilder zu erstellen, kann für Werbung und Marketing nützlich sein.
- Produktdesign. Ein Produktdesigner kann mit Dall-E etwas Neues visualisieren, nur mit Hilfe von Text, und zwar auf eine Weise, die wesentlich schneller sein kann als die Verwendung herkömmlicher CAD-Technologien.
- Kunst. Dall-E kann von jedem verwendet werden, um neue Kunst zu schaffen, die man genießen und sogar ausstellen kann.
- Modedesign. Als Ergänzung zu bestehenden Tools kann Dall-E Modedesignern bei der Entwicklung neuer Produkte unterstützen.
Was sind die Vorteile von Dall-E?
Dall-E bietet zahlreiche potenzielle Vorteile, darunter:
- Schnelligkeit. In sehr kurzer Zeit, oft in weniger als einer Minute, kann Dall-E aus einer einfachen Textvorgabe ein Bild erzeugen.
- Individuelle Anpassung. Auf der Grundlage einer Textabfrage kann ein Benutzer ein hochgradig individuelles Bild von fast allem erstellen, was er sich vorstellen kann.
- Zugänglichkeit. Da Dall-E nur Text in natürlicher Sprache benötigt, ist es für Benutzer leicht zugänglich und erfordert keine umfassende Schulung oder spezielle Programmierkenntnisse.
- Erweiterbarkeit. Dall-E kann dabei unterstützen, ein bestehendes Bild zu erweitern, indem man es mit einem anderen vermischt oder auf eine neue Art und Weise gestaltet.
- Iteration. Neue und bestehende Bilder können mit Dall-E schnell iteriert werden, so dass Benutzer mehrere Iterationen erstellen können.
Was sind die Nachteile von Dall-E?
Obwohl Dall-E viele Vorteile bietet, sind die Möglichkeiten der Technologie nicht grenzenlos. Es gibt mehrere Einschränkungen für Dall-E:
- Urheberrecht. Die Frage des Urheberrechts an den von Dall-E erstellten Bildern sowie die Frage, ob Dall-E auf urheberrechtlich geschützten Bildern trainiert wurde, bleibt ein Problem.
- Legitimität der erzeugten Kunst. Es gibt einige, die die Legitimität und Ethik von KI-generierter Kunst in Frage stellen und die Frage, ob sie den Menschen verdrängt.
- Datensatz. Auch wenn Dall-E mit einem großen Datensatz trainiert wurde, gibt es immer noch weitaus mehr Daten für Bilder und Beschreibungen, die verfügbar sind. So kann es vorkommen, dass eine Benutzereingabe nicht das gewünschte Bild erzeugt, da dem Modell die grundlegenden Informationen fehlen.
- Realismus. Obwohl Dall-E 2 und 3 die Bildqualität der generierten Bilder erheblich verbessert haben, können einige Bilder immer noch eine Qualität aufweisen, die sie für manche Benutzer nicht realistisch genug erscheinen lässt.
- Kontext. Um das richtige Bild zu erhalten, muss ein Benutzer eine klar definierte Aufforderung erhalten. Wenn die Eingabeaufforderung zu allgemein ist und der Kontext fehlt, kann das von Dall-E generierte Bild ungenau sein.
Dall-E versus Dall-E 2
Dall-E 2 stellt eine Weiterentwicklung der ursprünglichen Dall-E-Engine dar und bietet den Anwendern eine Reihe von verbesserten Funktionen.
Dall-E 1 wurde im Januar 2021 angekündigt, während Dall-E 2 im April 2022 auf den Markt kam. Bei dem ursprünglichen Dall-E verwendete OpenAI eine dVAE, um Bilder zu erzeugen. Dall-E 2 verwendet ein Diffusionsmodell, das Bilder von höherer Qualität erzeugen kann. OpenAI behauptet, dass die Bilder von Dall-E 2 eine viermal höhere Auflösung haben als die mit Dall-E erzeugten Bilder. Dall-E 2 profitiert außerdem von einer verbesserten Geschwindigkeit und Bildgröße im Vergleich zu seinem Vorgänger, so dass der Benutzer größere Bilder mit höherer Geschwindigkeit erstellen kann.
Die Möglichkeit, ein Bild mit verschiedenen Stilen anzupassen, wurde mit dem Modell Dall-E 2 ebenfalls erweitert. So kann man beispielsweise festlegen, dass ein Bild als Pixelkunst oder als Ölgemälde gezeichnet werden soll. Mit Dall-E 2 wurde auch das Konzept des Outpainting eingeführt, mit dem Benutzer ein Bild als Erweiterung (oder Outpainting) eines Originalbildes erstellen können.