Lemmatization (Lemmatisierung)
Was ist Lemmatisierung?
Unter Lemmatisierung (Lemmatization) versteht man das Zusammenfassen verschiedener flektierter Formen desselben Wortes. Es wird in der Computerlinguistik, der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) und bei Chatbots verwendet. Die Lemmatisierung verbindet Wörter mit ähnlicher Bedeutung zu einem Wort, wodurch Tools wie Chatbots und Suchmaschinenabfragen effektiver und genauer werden.
Das Ziel der Lemmatisierung ist es, ein Wort auf seine Stammform, auch Lemma genannt, zu reduzieren. Zum Beispiel würde das Verb laufen als lauf identifiziert werden. Die Lemmatisierung untersucht die morphologische oder strukturelle und kontextuelle Analyse von Wörtern.
Um ein Lemma korrekt zu identifizieren, analysieren die Tools den Kontext, die Bedeutung und die beabsichtigte Wortart in einem Satz sowie das Wort im größeren Kontext des umgebenden Satzes, benachbarter Sätze oder sogar des gesamten Dokuments. Mit diesem tiefgreifenden Verständnis können Werkzeuge, die die Lemmatisierung verwenden, die Bedeutung eines Satzes besser verstehen.
Wie funktioniert die Lemmatisierung?
Bei der Lemmatisierung wird ein Wort auf sein Lemma heruntergebrochen. Zum Beispiel kann das Verb gehen als gehtoder ging erscheinen. Flexionsendungen wie s, t und ing werden entfernt. Die Lemmatisierung gruppiert diese Wörter zu ihrem Lemma gehen.
Im Englischen kann das Wort saw je nach Satz unterschiedlich interpretiert werden. Zum Beispiel kann saw in die Lemmata see oder saw zerlegt werden. In diesen Fällen versucht die Lemmatisierung, je nach Kontext des Wortes, der umgebenden Wörter und des Satzes, das richtige Lemma auszuwählen. Andere Wörter, wie zum Beispiel besser, könnten in ein Lemma wie good zerlegt werden.
Eine grundlegende Methode zur Durchführung der Lemmatisierung ist die Verwendung eines Algorithmus, der auf dem Nachschlagen in einem Wörterbuch basiert. Dieser Prozess erfordert ein detailliertes Wörterbuch, damit der Algorithmus ein bestimmtes Wort finden und es mit dem Lemma des Wortes verknüpfen kann. Kompliziertere Wortformen oder Sprachen können ein regelbasiertes System für die Lemmatisierung erfordern.
Anwendungen der Lemmatisierung
Die Lemmatisierung wird häufig in den folgenden Bereichen angewendet:
- Künstliche Intelligenz (KI)
- Big-Data-Analyse
- Chatbots
- Maschinelles Lernen (ML)
- NLP
- Suchanfragen
- Stimmungsanalyse (Sentiment Analysis)
Lemmatisierung kann in einer Reihe von verschiedenen Situationen angewendet werden. Bei Suchanfragen beispielsweise ermöglicht die Lemmatisierung den Anwendern, jede beliebige Version eines Grundworts abzufragen und relevante Ergebnisse zu erhalten. Da die Algorithmen von Suchmaschinen die Lemmatisierung verwenden, kann der Benutzer jede Flexionsform eines Wortes abfragen und erhält relevante Ergebnisse. Wenn der Benutzer zum Beispiel die Pluralform eines (englischen) Wortes wie Routers abfragt, weiß die Suchmaschine, dass sie auch relevante Inhalte zurückgeben kann, die die Singularform desselben Wortes verwenden - Router.
Die Lemmatisierung ist ein wichtiger Bestandteil des NLU (Natural Language Understanding) und des NLP und spielt auch eine wichtige Rolle bei der Big-Data-Analyse und der künstlichen Intelligenz. In der Big-Data-Analytik wird die Lemmatisierung beispielsweise zur Normalisierung von Textdokumenten verwendet.
Auch im NLP hilft die Lemmatisierung einem KI- oder maschinellen Lern-Tool, Endbenutzer genau zu verstehen und mit ihnen zu kommunizieren. So kann beispielsweise die Stimmungsanalyse, die dazu dient, den emotionalen Ton eines Textes zu ermitteln, die Lemmatisierung nutzen, um die Bedeutung und den emotionalen Ton besser zu bestimmen.
Die Chatbot-KI nutzt die Lemmatisierung, um Benutzereingaben zu verstehen. Insbesondere hilft die Lemmatisierung einem Chatbot, die kontextbezogene Form eines Wortes zu verstehen, was zu einem besseren Verständnis von Sätzen führt.
Lemmatisierung vs. Stemming
In der Linguistik ist die Lemmatisierung eng mit dem Stemming verwandt, da beide Präfixe und Suffixe entfernen, die der Grundform eines Wortes hinzugefügt wurden.
Stemming-Algorithmen schneiden den Anfang oder das Ende eines Wortes anhand einer Liste gängiger Präfixe und Suffixe ab, die Teil eines flektierten Wortes sein können. Dieser Prozess ist im Allgemeinen wahllos und kann zu Grundformen eines Wortes mit falscher Schreibweise oder Bedeutung führen. Das Stemming arbeitet ohne Kontextwissen, das heißt, es kann nicht zwischen ähnlichen Wörtern mit unterschiedlichen Bedeutungen unterschieden werden.
Der Wortstamm von studies und studying wäre zum Beispiel studi und study, während bei der Lemmatisierung die Grundform study sowohl für studies als auch für studying wäre. Aber sowohl die Lemmatisierung als auch das Stemming würden beispielsweise immer noch die gleiche Grundform für das Wort walking ergeben. Stemming ist zwar weniger genau, lässt sich aber leichter implementieren und läuft schneller ab. Ein Beispiel für Stemming und Lemmatisierung wird im Folgenden gezeigt:
Stemming:
Study → Studi
Studying → Studi
Studies → Studi
Studied → Studi
Studier → Studiererin
Lemmatisierung:
Study → Study
Studying → Study
Studies → Study
Studied → Study
Studier → Study
Beim Stemming werden die meisten Beugungen des Wortes study zu studi, während bei der Lemmatisierung die meisten Ausgaben zu study werden.
Die Lemmatisierung ist komplexer als das Stemming, da bei der Lemmatisierung die Wörter sowohl nach Wortart als auch nach flektierter Form kategorisiert werden müssen. Dies kann in anderen Sprachen als dem Englischen, dessen einzige flektierte Formen der Singular oder Plural, die Verbform und die Komparativ- oder Superlativformen von Adverbien und Adjektiven sind, relativ kompliziert werden
Vor- und Nachteile der Lemmatisierung
Die Lemmatisierung bietet die folgenden Vorteile:
- Exaktheit. Die Lemmatisierung ist viel genauer als das Stemming, da sie das Lemma eines Wortes genauer bestimmen kann.
- Verstehen von Text. Die Lemmatisierung ist für NLP-Tools wie KI-Chatbots nützlich, um die Eingaben von Endbenutzern in ganzen Sätzen zu verstehen. Dies ist auch für die Rückgabe spezifischer Suchanfragen nützlich.
- Kontextuelles Verständnis. Wort für Wort kann die Lemmatisierung einen Begriff auf der Grundlage der kontextuellen Verwendung dieses Wortes verstehen.
Allerdings hat die Lemmatisierung im Vergleich zum Stemming auch einige Nachteile. So erfordert die Lemmatisierung beispielsweise einen höheren Rechenaufwand als das Stemming, das schneller und mit weniger Rechenressourcen durchgeführt werden kann. Lemmatisierungsalgorithmen sind auch langsamer als Stemming-Algorithmen, da bei der Lemmatisierung eine morphologische Analyse jedes flektierten Wortes durchgeführt wird.