Definition

Stemming

Was ist Stemming?

Unter Stemming versteht man das Reduzieren eines Wortes auf seinen Stamm, der an Suffixe und Präfixe oder an die Wurzeln von Wörtern, die als Lemmata bekannt sind, angehängt wird. Stemming ist wichtig für das Verstehen natürlicher Sprache (Natural Language Understanding, NLU) und die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).

Stemming ist ein Teil der linguistischen Studien im Bereich der Morphologie sowie der Informationsgewinnung und -extraktion durch künstliche Intelligenz (KI). Stemming und KI extrahieren aussagekräftige Informationen aus umfangreichen Quellen wie Big Data oder dem Internet, da möglicherweise zusätzliche Formen eines Wortes zu einem Thema gesucht werden müssen, um die besten Ergebnisse zu erzielen. Stemming ist auch ein Bestandteil von Abfragen (Queries) und Internet-Suchmaschinen.

Das Erkennen, Suchen und Abrufen mehrerer Formen von Wörtern liefert mehr Ergebnisse. Wenn eine Form eines Wortes erkannt wird, ist es möglich, Suchergebnisse zu liefern, die sonst vielleicht übersehen worden wären. Diese zusätzlichen Informationen sind der Grund, warum das Stemming ein wesentlicher Bestandteil von Suchanfragen und Informationsabfragen ist.

Wenn ein neues Wort gefunden wird, kann dies neue Recherchemöglichkeiten eröffnen. Oft lassen sich die besten Ergebnisse erzielen, wenn man die morphologische Grundform des Wortes verwendet: das Lemma. Um das Lemma zu finden, wird das Stemming von einer Person oder einem Algorithmus innerhalb eines KI-Systems durchgeführt. Beim Stemming werden verschiedene Ansätze verwendet, um ein Wort auf seine Basis zu reduzieren, unabhängig davon, welche flektierte Form gefunden wird.

Es kann einfach sein, einen Stemming-Algorithmus zu entwickeln. Einige einfache Algorithmen entfernen einfach die erkannten Präfixe und Suffixe. Diese einfachen Algorithmen sind jedoch fehleranfällig. Ein Fehler kann zum Beispiel Wörter wie Laziness zu lazi statt zu lazy machen. Solche Algorithmen können auch Schwierigkeiten mit Wörtern haben, deren Flexionsformen das Lemma nicht perfekt widerspiegeln, wie zum Beispiel saw und see.

Beispiele für Stemming-Algorithmen sind:

  • Nachschlagen von flektierten Wortformen. Bei diesem Ansatz müssen alle flektierten Formen aufgelistet werden.
  • Entfernen von Suffixen. Algorithmen erkennen bekannte Suffixe an flektierten Wörtern und entfernen sie.
  • Lemmatisierung. Dieser Algorithmus sammelt alle flektierten Formen eines Wortes, um sie in ihre Stammform oder ihr Lemma zu zerlegen. Die Wörter werden mit Hilfe der Grammatikregeln in eine Wortart zerlegt.
  • Stochastische Modelle. Dieser Algorithmus lernt aus Tabellen mit flektierten Wortformen. Durch das Verständnis von Suffixen und den Regeln, nach denen sie angewendet werden, kann ein Algorithmus neue Wörter bilden.
Diese Definition wurde zuletzt im April 2023 aktualisiert

Erfahren Sie mehr über Datenverwaltung