Sprachmodellierung (Language Modeling)

Sprachmodellierung (Language Modeling, LM) ist die Verwendung verschiedener statistischer und probabilistischer Techniken zur Bestimmung der Wahrscheinlichkeit, dass eine bestimmte Wortfolge in einem Satz vorkommt. Sprachmodelle analysieren Textdaten, um eine Grundlage für ihre Wortvorhersagen zu schaffen. Sie werden in Anwendungen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eingesetzt, insbesondere in solchen, die Text als Ausgabe erzeugen. Einige dieser Anwendungen sind die maschinelle Übersetzung und die Beantwortung von Fragen.

Wie funktioniert Sprachmodellierung?

Sprachmodelle ermitteln die Wortwahrscheinlichkeit durch Analyse von Textdaten. Sie interpretieren diese Daten, indem sie sie durch einen Algorithmus leiten, der Regeln für den Kontext in der natürlichen Sprache aufstellt. Anschließend wendet das Modell diese Regeln bei Sprachaufgaben an, um neue Sätze genau vorherzusagen oder zu produzieren. Das Modell lernt im Wesentlichen die Merkmale und Eigenschaften der Grundsprache und verwendet diese Merkmale, um neue Sätze zu verstehen.

Es gibt verschiedene probabilistische Ansätze zur Modellierung von Sprache, die sich je nach Zweck des Sprachmodells unterscheiden. Aus technischer Sicht unterscheiden sich die verschiedenen Typen durch die Menge an Textdaten, die sie analysieren, und durch die Mathematik, die sie zu deren Analyse verwenden. Ein Sprachmodell, das für die Generierung von Sätzen für einen automatisierten Twitter Bot entwickelt wurde, kann beispielsweise andere mathematische Verfahren verwenden und Textdaten auf andere Weise analysieren als ein Sprachmodell, das für die Bestimmung der Wahrscheinlichkeit einer Suchanfrage entwickelt wurde.

Einige gängige statistische Sprachmodellierungstypen sind:

N-Gramm. N-Gramme sind ein relativ einfacher Ansatz für Sprachmodelle. Sie erstellen eine Wahrscheinlichkeitsverteilung für eine Folge von n. n kann eine beliebige Zahl sein und definiert die Größe des Gramms oder der Folge von Wörtern, denen eine Wahrscheinlichkeit zugeordnet wird. Wenn zum Beispiel n = 5 ist, könnte eine Grammatik wie folgt aussehen: Können Sie mich bitte anrufen. Das Modell ordnet dann Wahrscheinlichkeiten anhand von Sequenzen der Größe n zu. Im Grunde kann man sich n als die Menge an Kontext vorstellen, die das Modell berücksichtigen soll. Einige Arten von n-Grammen sind Unigramme, Bigramme, Trigramme und so weiter.
Unigramm. Das Unigramm ist der einfachste Typ eines Sprachmodells. Es berücksichtigt bei seinen Berechnungen keinen konditionierenden Kontext. Es wertet jedes Wort oder jeden Begriff unabhängig aus. Unigramm-Modelle werden üblicherweise für Sprachverarbeitungsaufgaben wie die Informationsbeschaffung verwendet. Das Unigram bildet die Grundlage für eine spezifischere Modellvariante, das so genannte Query-Likelihood-Modell, das beim Information Retrieval einen Pool von Dokumenten untersucht und das relevanteste Dokument mit einer bestimmten Anfrage abgleicht.
Bidirektional. Im Gegensatz zu n-Gramm-Modellen, die den Text in einer Richtung (rückwärts) analysieren, analysieren bidirektionale Modelle den Text in beide Richtungen, vorwärts und rückwärts. Diese Modelle können jedes beliebige Wort in einem Satz oder Textteil vorhersagen, indem sie jedes andere Wort im Text verwenden. Die bidirektionale Untersuchung von Text erhöht die Genauigkeit der Ergebnisse. Dieser Typ wird häufig bei Anwendungen für maschinelles Lernen und Spracherzeugung eingesetzt. Google verwendet beispielsweise ein bidirektionales Modell zur Verarbeitung von Suchanfragen.
Exponential. Dieser auch als Maximum-Entropie-Modell bekannte Typ ist komplexer als n-Gramme. Einfach ausgedrückt, bewertet das Modell den Text anhand einer Gleichung, die Merkmalsfunktionen und n-Gramme kombiniert. Grundsätzlich gibt dieser Typ die Merkmale und Parameter der gewünschten Ergebnisse vor und lässt im Gegensatz zu n-Grammen die Analyseparameter mehrdeutig - es werden zum Beispiel keine einzelnen Grammgrößen angegeben. Das Modell basiert auf dem Prinzip der Entropie, das besagt, dass die Wahrscheinlichkeitsverteilung mit der größten Entropie die beste Wahl ist. Mit anderen Worten: Das Modell mit dem größten Chaos und dem geringsten Spielraum für Annahmen ist das genaueste. Exponentialmodelle sind so konzipiert, dass sie die Kreuzentropie maximieren, wodurch die Anzahl der statistischen Annahmen, die gemacht werden können, minimiert wird. Dadurch können die Benutzer den Ergebnissen dieser Modelle besser vertrauen.
Continuous Space (kontinuierlicher Raum). Dieser Modelltyp stellt Wörter als nichtlineare Kombination von Gewichten in einem neuronalen Netz dar. Der Prozess, bei dem einem Wort ein Gewicht zugewiesen wird, wird auch als Worteinbettung bezeichnet. Dieser Typ ist besonders nützlich, wenn die Datensätze immer größer werden, da größere Datensätze oft mehr einzigartige Wörter enthalten. Das Vorhandensein vieler einzigartiger oder selten verwendeter Wörter kann bei linearen Modellen wie einem n-Gramm zu Problemen führen. Der Grund dafür ist, dass die Anzahl der möglichen Wortfolgen zunimmt und die Muster, die die Ergebnisse bestimmen, schwächer werden. Durch eine nicht lineare, verteilte Gewichtung der Wörter kann dieses Modell lernen, sich den Wörtern anzunähern und wird daher nicht durch unbekannte Werte in die Irre geführt. Sein Verständnis eines bestimmten Wortes ist nicht so stark an die unmittelbar umgebenden Wörter gebunden wie bei n-Gramm-Modellen.

Bei den oben aufgeführten Modellen handelt es sich um allgemeinere statistische Ansätze, von denen spezifischere Sprachmodelle abgeleitet werden. Wie in der Beschreibung der n-Gramme erwähnt, ist beispielsweise das Query-Likelihood-Modell ein spezifischeres oder spezialisiertes Modell, das den n-Gramm-Ansatz verwendet. Die Modelltypen können in Verbindung miteinander verwendet werden.

Die aufgeführten Modelle unterscheiden sich auch erheblich in ihrer Komplexität. Grob gesagt sind komplexere Sprachmodelle besser für NLP-Aufgaben geeignet, da Sprache selbst äußerst komplex ist und sich ständig weiterentwickelt. Daher kann ein Exponentialmodell oder ein Modell mit kontinuierlichem Raum für NLP-Aufgaben besser geeignet sein als ein n-Gramm-Modell, da sie darauf ausgelegt sind, Mehrdeutigkeit und Variation in der Sprache zu berücksichtigen.

Ein gutes Sprachmodell sollte auch in der Lage sein, langfristige Abhängigkeiten zu verarbeiten und mit Wörtern umzugehen, die ihre Bedeutung von anderen Wörtern ableiten können, die in weit entfernten, ungleichen Teilen des Textes vorkommen. Ein Sprachmodell sollte in der Lage sein zu verstehen, wann ein Wort auf ein anderes Wort aus großer Entfernung verweist, anstatt sich immer auf nahe gelegene Wörter innerhalb einer bestimmten festen Geschichte zu verlassen. Dies erfordert ein komplexeres Modell.

Die Bedeutung der Sprachmodellierung

Sprachmodellierung ist in modernen NLP-Anwendungen von entscheidender Bedeutung. Sie ist der Grund dafür, dass Maschinen qualitative Informationen verstehen können. Jeder Sprachmodelltyp wandelt auf die eine oder andere Weise qualitative Informationen in quantitative Informationen um. Auf diese Weise können Menschen mit Maschinen kommunizieren, wie sie es in begrenztem Umfang auch untereinander tun.

Es wird direkt in einer Vielzahl von Branchen eingesetzt, unter anderem in den Bereichen Technik, Finanzen, Gesundheitswesen, Verkehr, Recht, Militär und Regierung. Außerdem ist es wahrscheinlich, dass die meisten Menschen, die dies lesen, irgendwann einmal mit einem Sprachmodell interagiert haben, sei es über die Google-Suche, eine Autovervollständigungsfunktion oder einen Sprachassistenten.

Die Wurzeln der Sprachmodellierung, wie sie heute existiert, lassen sich bis ins Jahr 1948 zurückverfolgen. In diesem Jahr veröffentlichte Claude Shannon eine Arbeit mit dem Titel A Mathematical Theory of Communication. Darin beschrieb er die Verwendung eines stochastischen Modells, der so genannten Markov-Kette, zur Erstellung eines statistischen Modells für die Buchstabenfolgen in englischen Texten. Diese Arbeit hatte einen großen Einfluss auf die Telekommunikationsindustrie und legte den Grundstein für die Informationstheorie und die Sprachmodellierung. Das Markov-Modell wird auch heute noch verwendet, und insbesondere die n-Gramme sind sehr eng mit diesem Konzept verbunden.

Anwendungen und Beispiele für die Sprachmodellierung

Sprachmodelle sind das Rückgrat der natürlichen Sprachverarbeitung (NLP). Im Folgenden finden Sie einige NLP-Aufgaben, bei denen die Sprachmodellierung zum Einsatz kommt, ihre Bedeutung und einige Anwendungen dieser Aufgaben:

Spracherkennung: eine Maschine ist in der Lage, Audio-Sprache zu verarbeiten. Dies wird häufig von Sprachassistenten wie Siri und Alexa verwendet.
Maschinelle Übersetzung: enthält die Übersetzung einer Sprache in eine andere durch eine Maschine. Google Translate und Microsoft Translator sind zwei Programme, die dies tun. SDL Government ist ein weiteres Programm, das für die US-Regierung ausländische Social Media Feeds in Echtzeit übersetzt.
Parts-of-Speech-Tagging: umfasst die Markierung und Kategorisierung von Wörtern nach bestimmten grammatikalischen Merkmalen. Dies wird in der Linguistik eingesetzt, zuerst und vielleicht am bekanntesten bei der Untersuchung des Brown Corpus, einem Korpus aus zufälliger englischer Prosa, das für die Untersuchung durch Computer konzipiert wurde. Mit diesem Korpus wurden mehrere wichtige Sprachmodelle trainiert, darunter eines, das von Google zur Verbesserung der Suchqualität verwendet wird.
Parsing: umfasst die Analyse einer beliebigen Datenkette oder eines Satzes, der den formalen Grammatik- und Syntaxregeln entspricht. Bei der Sprachmodellierung kann dies in Form von Satzdiagrammen geschehen, die die Beziehung der einzelnen Wörter zueinander darstellen. Anwendungen zur Rechtschreibprüfung verwenden Sprachmodellierung und Parsing.
Stimmungsanalyse: findet die Bestimmung der Stimmung hinter einem bestimmten Satz. Sie kann insbesondere verwendet werden, um Meinungen und Einstellungen zu verstehen, die in einem Text zum Ausdruck kommen. Unternehmen können dies zur Analyse von Produktbewertungen oder allgemeinen Beiträgen über ihr Produkt sowie zur Analyse interner Daten wie Mitarbeiterumfragen und Chats des Kundensupports nutzen. Einige Dienste, die Tools zur Stimmungsanalyse anbieten, sind Repustate und Hubspot's ServiceHub. Das NLP-Tool von Google, genannt Bidirectional Encoder Representations from Transformers (BERT), wird ebenfalls für die Stimmungsanalyse verwendet.
Optische Zeichenerkennung: ist der Einsatz einer Maschine, die Bilder von Text in maschinencodierten Text umwandelt. Bei dem Bild kann es sich um ein gescanntes Dokument oder ein Dokumentfoto handeln, oder um ein Foto mit Text irgendwo darin, zum Beispiel auf einem Schild. Es wird häufig bei der Dateneingabe verwendet, wenn alte Papierunterlagen verarbeitet werden, die digitalisiert werden müssen. Es kann auch zur Analyse und Identifizierung von Handschriftproben verwendet werden.
Information Retrieval: umfasst die Suche nach Informationen in einem Dokument, die Suche nach Dokumenten im Allgemeinen und die Suche nach Metadaten, die zu einem Dokument gehören. Webbrowser sind die gebräuchlichsten Anwendungen für die Informationsbeschaffung.

Sprachmodellierung (Language Modeling)

Wie funktioniert Sprachmodellierung?

Die Bedeutung der Sprachmodellierung

Anwendungen und Beispiele für die Sprachmodellierung

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)

Die wichtigsten KI-Begriffe

Warum generative KI nicht gut rechnen kann

RAG-Architektur: Funktionsweise und Aufbau

Was generative KI und Large Language Models unterscheidet

Wie funktioniert Sprachmodellierung?

Die Bedeutung der Sprachmodellierung

Anwendungen und Beispiele für die Sprachmodellierung

Ähnliche Begriffe

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)

Die wichtigsten KI-Begriffe

Warum generative KI nicht gut rechnen kann

RAG-Architektur: Funktionsweise und Aufbau

Was generative KI und Large Language Models unterscheidet