Multimodale künstliche Intelligenz (multimodale KI)
Was ist multimodale KI?
Multimodale KI ist künstliche Intelligenz (KI), die mehrere Arten oder Modi von Daten kombiniert, um genauere Feststellungen zu treffen, aufschlussreiche Schlussfolgerungen zu ziehen oder präzisere Vorhersagen zu realen Problemen zu machen. Multimodale KI-Systeme trainieren mit Video-, Audio-, Sprach-, Bild- und Textdaten sowie einer Reihe traditioneller numerischer Datensätze und verwenden diese. Vor allem aber bedeutet multimodale KI, dass zahlreiche Datentypen zusammen verwendet werden, um der KI zu helfen, Inhalte zu ermitteln und den Kontext besser zu interpretieren – etwas, das bei früherer KI fehlte.
Wie unterscheidet sich multimodale KI von anderer KI?
Im Kern folgt multimodale KI dem bekannten KI-Ansatz, der auf KI-Modellen und maschinellem Lernen beruht.
KI-Modelle sind die Algorithmen, die definieren, wie Daten gelernt und interpretiert werden und wie Antworten auf der Grundlage dieser Daten formuliert werden. Sobald die Daten in das Modell einfließen, wird das zugrunde liegende neuronale Netzwerk trainiert und aufgebaut, so dass eine Basis geeigneter Antworten entsteht. Die KI selbst ist die Softwareanwendung, die auf den zugrunde liegenden maschinellen Lernmodellen aufbaut. Die KI-Anwendung ChatGPT zum Beispiel basiert derzeit auf dem GPT-4-Modell.
Wenn neue Daten aufgenommen werden, trifft die KI Feststellungen und generiert aus diesen Daten Antworten für den Benutzer. Diese Ergebnisse – zusammen mit der Zustimmung des Benutzers oder anderen Belohnungen – werden in das Modell zurückgeführt, um es weiter zu verfeinern und zu verbessern.
Der fundamentale Unterschied zwischen multimodaler KI und traditioneller monomodaler KI sind die Daten. Eine monomodale KI ist in der Regel auf eine einzige Datenquelle oder einen einzigen Datentyp ausgelegt. So verwendet eine Finanz-KI beispielsweise Finanzdaten von Unternehmen zusammen mit breiteren Wirtschafts- und Industriedaten, um Analysen durchzuführen, Finanzprognosen zu erstellen oder potenzielle Finanzprobleme für das Unternehmen zu erkennen. Das heißt, die monomodale KI ist auf eine bestimmte Aufgabe zugeschnitten.
Die multimodale KI hingegen nimmt Daten aus verschiedenen Quellen auf und verarbeitet sie, einschließlich Video, Bilder, Sprache, Ton und Text, und ermöglicht so eine detailliertere und nuanciertere Wahrnehmung der jeweiligen Umgebung oder Situation. Auf diese Weise simuliert multimodale KI die menschliche Wahrnehmung besser.
Welche Technologien sind mit multimodaler KI verbunden?
Multimodale KI-Systeme werden in der Regel aus einer Reihe von drei Hauptkomponenten aufgebaut:
- Ein Eingabemodul besteht aus einer Reihe von neuronalen Netzwerken, die für die Aufnahme und Verarbeitung beziehungsweise Kodierung verschiedener Datentypen wie Sprache und Bild verantwortlich sind. Jede Art von Daten wird in der Regel von einem eigenen neuronalen Netzwerk verarbeitet, so dass Sie in jedem multimodalen KI-Eingabemodul zahlreiche unimodale neuronale Netzwerke erwarten können.
- Ein Fusionsmodul ist verantwortlich für die Kombination, den Abgleich und die Verarbeitung der relevanten Daten aus jeder Modalität – zum Beispiel Sprache, Text und Bild – zu einem zusammenhängenden Datensatz, der die Stärken der einzelnen Datentypen nutzt. Die Fusion erfolgt mit verschiedenen mathematischen und datenverarbeitenden Techniken, zum Beispiel Transformer-Modellen und Graph-Faltungsnetzwerken.
- Ein Ausgabemodul ist für die Erstellung der Ausgabe der multimodalen KI verantwortlich, einschließlich der Erstellung von Vorhersagen oder Entscheidungen oder der Empfehlung anderer verwertbarer Ausgaben, die das System oder ein menschlicher Bediener nutzen kann.
Typischerweise umfasst ein multimodales KI-System eine Vielzahl von Komponenten oder Technologien, wie zum Beispiel:
- Technologien zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bieten Funktionen zur Spracherkennung und zur Umwandlung von Sprache in Text sowie Funktionen zur Sprachausgabe oder Text-to-Speech. Schließlich erkennen NLP-Technologien Stimmveränderungen, wie zum Beispiel Betonung oder Sarkasmus, und fügen der Verarbeitung Kontext hinzu.
- Computer-Vision-Technologien für die Bild- und Videoerfassung klären die Objekterkennung, einschließlich der Erkennung von Menschen, und unterscheiden Aktivitäten wie Laufen oder Springen.
- Textanalyse ermöglicht es dem System, geschriebene Sprache und Absichten zu lesen und zu verstehen.
- Integrationssysteme ermöglichen es der multimodalen KI, Dateneingaben über die verschiedenen Datentypen hinweg abzugleichen, zu kombinieren, zu priorisieren und zu filtern. Dies ist der Schlüssel zur multimodalen KI, denn die Integration ist von zentraler Bedeutung für die Entwicklung von Kontext und kontextbasierten Entscheidungen.
- Speicher- und Rechenressourcen für Data Mining, Verarbeitung und Ergebnisgenerierung sind unerlässlich, um qualitativ hochwertige Echtzeit-Interaktionen und Ergebnisse zu gewährleisten.
Was sind Anwendungsfälle für multimodale KI?
Multimodale KI bietet eine Reihe von Anwendungsfällen, die sie wertvoller machen als monomodale KI. Zu den gängigen Anwendungen multimodaler KI gehören:
Computer Vision
Die Zukunft der Computer Vision geht weit über die bloße Identifizierung von Objekten hinaus. Die Kombination mehrerer Datentypen hilft der KI, den Kontext eines Bildes zu erkennen und genauere Feststellungen zu treffen. Wenn beispielsweise das Bild eines Hundes mit den Geräuschen eines Hundes kombiniert wird, ist die Wahrscheinlichkeit höher, dass das Objekt als Hund identifiziert wird. Eine andere Möglichkeit ist die Gesichtserkennung, die in Verbindung mit NLP zu einer besseren Identifizierung einer Person führen kann.
Industrie
Multimodale KI hat eine breite Palette von Anwendungen am Arbeitsplatz. In der Industrie wird multimodale KI eingesetzt, um Fertigungsprozesse zu überwachen und zu optimieren, die Produktqualität zu verbessern oder Wartungskosten zu senken. Im Gesundheitswesen wird multimodale KI eingesetzt, um die Vitaldaten, Diagnosedaten und Aufzeichnungen eines Patienten zu verarbeiten und die Behandlung zu verbessern. Die Automobilbranche nutzt multimodale KI, um einen Fahrer auf Anzeichen von Müdigkeit zu beobachten, wie zum Beispiel das Schließen der Augen und das Verlassen der Fahrspur, um mit dem Fahrer zu interagieren und ihm Empfehlungen zu geben, wie zum Beispiel Ruhepausen oder einen Fahrerwechsel.
Sprachverarbeitung
Multimodale KI führt NLP-Aufgaben wie Stimmungsanalysen durch. So erkennt ein System beispielsweise Anzeichen von Stress in der Stimme eines Benutzers und kombiniert diese mit Anzeichen von Ärger im Gesichtsausdruck des Benutzers, um die Antworten auf die Bedürfnisse des Benutzers abzustimmen oder zu mildern. In ähnlicher Weise kann die Kombination von Text mit dem Klang von Sprache einer KI helfen, die Aussprache und das Sprechen in anderen Sprachen zu verbessern.
Robotik
Multimodale KI ist für die Entwicklung von Robotern von zentraler Bedeutung, denn Roboter müssen mit realen Umgebungen, mit Menschen und mit einer Vielzahl von Objekten wie Haustieren, Autos, Gebäuden und deren Zugängen interagieren. Multimodale KI nutzt Daten von Kameras, Mikrofonen, GPS und anderen Sensoren, um ein detailliertes Verständnis der Umgebung zu schaffen und erfolgreicher mit ihr zu interagieren.
Multimodale KI-Herausforderungen
Das Potenzial und die Möglichkeiten der multimodalen KI sind mit Herausforderungen für die Entwickler verbunden, insbesondere in Bezug auf die Qualität und Interpretation der Daten. Zu den häufigsten Herausforderungen gehören:
- Datenmenge. Die Datensätze, die für den Betrieb einer multimodalen KI benötigt werden, stellen aufgrund der schieren Vielfalt der beteiligten Daten eine große Herausforderung für die Datenqualität, die Speicherung und die Redundanz dar. Solche Datenmengen sind teuer in der Speicherung und kostspielig in der Verarbeitung.
- Nuancen lernen. Einer KI beizubringen, verschiedene Bedeutungen von identischen Eingaben zu unterscheiden, kann problematisch sein. Nehmen Sie eine Person, die „wunderbar“ sagt. Die KI versteht das Wort, aber „wunderbar“ kann auch für sarkastische Missbilligung stehen. Andere Kontexte, wie zum Beispiel der Tonfall oder die Mimik, unterstützen bei der Unterscheidung und ermöglichen eine genaue Antwort.
- Datenabgleich. Es ist schwierig, aussagekräftige Daten aus verschiedenen Datentypen – Daten, die dieselbe Zeit und denselben Raum repräsentieren – richtig abzugleichen.
- Begrenzte Datensätze. Nicht alle Daten sind vollständig oder leicht verfügbar. Begrenzte Daten, wie zum Beispiel öffentliche Datensätze, sind oft schwer und teuer zu finden. Bei vielen Datensätzen werden außerdem Daten aus verschiedenen Quellen in erheblichem Umfang aggregiert. Folglich können Vollständigkeit, Integrität und Verzerrungen der Daten ein Problem für das Training von KI-Modellen darstellen.
- Fehlende Daten. Multimodale KI ist auf Daten aus verschiedenen Quellen angewiesen. Eine fehlende Datenquelle kann jedoch zu KI-Fehlfunktionen oder Fehlinterpretationen führen. Wenn zum Beispiel die Audioeingabe nicht funktioniert und keine Audiodaten oder Audiodaten wie Heulen oder statische Geräusche liefert, ist die Erkennung und Reaktion der KI auf solche fehlenden Daten unbekannt.
- Komplexe Entscheidungsfindung. Die neuronalen Netze, die sich durch Training entwickeln, können schwer zu verstehen und zu interpretieren sein, so dass es für Menschen schwierig ist, genau zu bestimmen, wie KI Daten auswertet und Entscheidungen trifft. Diese Erkenntnis ist jedoch entscheidend für die Behebung von Fehlern und die Beseitigung von Daten- und Entscheidungsfehlern. Gleichzeitig verwenden selbst umfangreich trainierte Modelle einen endlichen Datensatz, und es ist schwierig zu wissen, wie unbekannte, ungesehene oder anderweitig neue Daten die KI und ihre Entscheidungsfindung beeinflussen können. Dies kann multimodale KI unzuverlässig oder unvorhersehbar machen, was zu unerwünschten Ergebnissen für KI-Nutzer führt.