Definition

Computerlinguistik (CL)

Was ist Computerlinguistik (CL)?

Computerlinguistik (CL) ist die Anwendung der Informatik auf die Analyse und das Verständnis von geschriebener und gesprochener Sprache. Als interdisziplinäres Fachgebiet verbindet die Computerlinguistik die Linguistik mit der Informatik und der künstlichen Intelligenz (KI) und befasst sich mit dem Verständnis von Sprache aus einer computergestützten Perspektive. Computer, die sprachlich kompetent sind, erleichtern die menschliche Interaktion mit Maschinen und Software.

Die Computerlinguistik wird in Tools wie maschineller Sofortübersetzung, Spracherkennungssystemen, Parsern, Text-zu-Sprache-Synthesizern, interaktiven Sprachdialogsystemen, Suchmaschinen, Texteditoren und Sprachlehrmitteln eingesetzt.

Der Begriff Computerlinguistik ist auch eng mit der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verbunden, und diese beiden Begriffe werden häufig synonym verwendet.

Anwendungen der Computerlinguistik

Die meisten Arbeiten in der Computerlinguistik - die sowohl theoretische als auch angewandte Elemente enthält - zielen darauf ab, die Beziehung zwischen Computern und der grundlegenden Sprache zu verbessern. Es geht um die Entwicklung von Artefakten, die zur Verarbeitung und Produktion von Sprache verwendet werden können. Der Aufbau solcher Artefakte erfordert von Datenwissenschaftlern die Analyse großer Mengen geschriebener und gesprochener Sprache in strukturierten und unstrukturierten Formaten.

Zu den typischen Anwendungen von CL gehören die folgenden:

  • Maschinelle Übersetzung. Hierbei handelt es sich um den Einsatz von KI zur Übersetzung einer menschlichen Sprache in eine andere.
  • Anwendungs-Clustering. Hierbei werden mehrere Computerserver zu einem Cluster zusammengeschlossen.
  • Stimmungsanalyse. Die Stimmungsanalyse ist ein wichtiger Ansatz im NLP, der den emotionalen Ton eines Textes identifiziert.
  • Chatbots. Diese Software oder Computerprogramme simulieren menschliche Unterhaltungen oder Gespräche durch Text- oder Sprachinteraktionen.
  • Informationsextraktion. Hierbei handelt es sich um die Gewinnung von Wissen aus strukturiertem und unstrukturiertem Text.
  • Natürlichsprachliche Schnittstellen. Hierbei handelt es sich um Computer-Mensch-Schnittstellen, bei denen Wörter, Sätze oder Klauseln als Benutzeroberflächensteuerung dienen.
  • Inhaltsfilter. Dieser Prozess verhindert, dass Webinhalte in verschiedenen Sprachen die Benutzer erreichen.
  • Text Mining. Beim Text Mining werden nützliche Informationen aus großen Mengen unstrukturierter Textdaten extrahiert. Tokenisierung, Part-of-Speech-Tagging - Named-Entity-Recognition und Sentiment-Analyse - werden zur Durchführung dieses Prozesses verwendet.
Abbildung 1: Die Computerlinguistik lässt sich für viele verschiedene grundlegende Anwendungen einsetzen.
Abbildung 1: Die Computerlinguistik lässt sich für viele verschiedene grundlegende Anwendungen einsetzen.

Ansätze und Methoden der Computerlinguistik

Seit den Anfängen der Computerlinguistik in den 1950er Jahren hat es viele verschiedene Ansätze und Methoden gegeben. Beispiele für einige Computerlinguistikansätze sind:

  • Der korpusbasierte Ansatz, der sich auf die Sprache stützt, wie sie in der Praxis verwendet wird.
  • Der Verständnisansatz, der es der NLP-Engine ermöglicht, natürlich geschriebene Befehle in einer einfachen, regelbasierten Umgebung zu interpretieren.
  • Der entwicklungsorientierte Ansatz, der sich die Spracherwerbsstrategie eines Kindes zu eigen macht, das sich die Sprache im Laufe der Zeit aneignet. Der Entwicklungsprozess verfolgt einen statistischen Ansatz zur Untersuchung von Sprache und berücksichtigt keine grammatikalische Struktur.
  • Der strukturelle Ansatz, der einen theoretischen Ansatz für die Struktur einer Sprache verfolgt. Bei diesem Ansatz werden große Stichproben einer Sprache durch Computermodelle laufen gelassen, um ein besseres Verständnis der zugrunde liegenden Sprachstrukturen zu erlangen.
  • Der produktive Ansatz konzentriert sich auf ein Computerlinguistikmodell zur Textproduktion. Dies geschieht auf verschiedene Weise, unter anderem durch die Entwicklung von Algorithmen, die Text auf der Grundlage von Beispieltexten von Menschen produzieren. Dieser Ansatz kann in die folgenden beiden Ansätze unterteilt werden:
    • Der textbasierte interaktive Ansatz verwendet den Text eines Menschen, um eine Antwort durch einen Algorithmus zu erzeugen. Ein Computer kann verschiedene Muster erkennen und auf der Grundlage von Benutzereingaben und bestimmten Schlüsselwörtern antworten.
    • Der sprachbasierte interaktive Ansatz funktioniert ähnlich wie der textbasierte Ansatz, aber die Benutzereingabe erfolgt durch Spracherkennung. Die Spracheingabe des Benutzers wird als Schallwellen erkannt und vom CL-System als Muster interpretiert.

Computerlinguistik versus Verarbeitung natürlicher Sprache

Computerlinguistik und natürliche Sprachverarbeitung (NLP) sind ähnliche Konzepte, da beide Bereiche eine formale Ausbildung in Informatik, Linguistik und maschinellem Lernen (ML) erfordern. Beide nutzen die gleichen Werkzeuge wie ML und KI, um ihre Ziele zu erreichen, und viele NLP-Aufgaben erfordern ein Verständnis oder eine Interpretation von Sprache.

NLP-Merkmale und -Elemente
Abbildung 2: NLP kann für eine Vielzahl von Aufgaben eingesetzt werden.

Während sich NLP mit der Fähigkeit eines Computerprogramms befasst, die gesprochene und geschriebene menschliche Sprache zu verstehen und Stimmungsanalysen zu erstellen, konzentriert sich CL auf die rechnerische Beschreibung von Sprachen als System. Die Computerlinguistik orientiert sich außerdem mehr an der Linguistik und der Beantwortung linguistischer Fragen mit Computer-Tools; NLP hingegen befasst sich mit der Anwendung der Sprachverarbeitung.

NLP spielt eine wichtige Rolle bei der Entwicklung von Sprachtechnologien, einschließlich Chatbots, Spracherkennungssystemen und virtuellen Assistenten wie Siri, Alexa und Cortana. Die CL hingegen widmet sich Themen wie der Bewahrung von Sprachen, der Analyse historischer Dokumente und der Entwicklung von Dialogsystemen wie Google Translate.

Geschichte der Computerlinguistik

Obwohl das Konzept der Computerlinguistik oft mit KI in Verbindung gebracht wird, geht die Computerlinguistik laut der Association for Computational Linguistics der Entwicklung der KI voraus. Eines der ersten Beispiele für CL geht auf einen Versuch zurück, einen Text aus dem Russischen ins Englische zu übersetzen. Der Gedanke war, dass Computer systematische Berechnungen schneller und genauer durchführen können als Menschen, so dass es nicht lange dauert, eine Sprache zu verarbeiten. Die Komplexität der Sprachen wurde jedoch unterschätzt, so dass die Entwicklung eines funktionierenden Programms viel mehr Zeit und Mühe erforderte.

Anfang der 1970er Jahre wurden zwei Programme entwickelt, die über eine kompliziertere Syntax und semantische Zuordnungsregeln verfügten. SHRDLU war ein primärer Sprachparser, der von dem Informatiker Terry Winograd am Massachusetts Institute of Technology entwickelt wurde. Er kombinierte menschliche linguistische Modelle mit logischen Methoden. Dies war eine wichtige Errungenschaft in der Forschung zum Verständnis und zur Verarbeitung natürlicher Sprache.

1971 entwickelte die NASA das Programm Lunar und stellte es auf einem Weltraumkongress vor. Das Lunar Sciences Natural Language Information System beantwortete die Fragen der Kongressteilnehmer über die Zusammensetzung der von den Apollo-Mondmissionen zurückkehrenden Gesteine.

Zuvor war die Übersetzung von Sprachen eine schwierige Aufgabe, da das System die Grammatik und die Syntax, in der die Wörter verwendet wurden, verstehen musste. Seitdem haben sich die Strategien zur Ausführung von Computerlinguistik von prozeduralen Ansätzen hin zu linguistischen, verständlichen und modularen Ansätzen entwickelt. In den späten 1980er Jahren nahm die Rechenleistung zu, was zu einer Verlagerung auf statistische Methoden bei der Betrachtung von CL führte. Zu dieser Zeit wurden auch korpusbasierte statistische Verfahren entwickelt.

Moderne Computerlinguistik stützt sich auf viele der gleichen Werkzeuge und Verfahren wie NLP. Diese Systeme nutzen eine Vielzahl von Werkzeugen, darunter KI, Machine Learning, Deep Learning und Cognitive Computing. GPT-3, der Generative Pre-trained Transformer der dritten Generation, ist ein Machine-Learning-Modell mit neuronalen Netzen, das Text auf der Grundlage von Benutzereingaben erzeugt.

Es wurde von OpenAI im Jahr 2020 veröffentlicht und mit Internetdaten trainiert, um jede Art von Text zu erzeugen. Das Programm benötigt eine geringe Menge an Eingabetext, um große relevante Textmengen zu erzeugen. GPT-3 ist ein Modell mit mehr als 175 Milliarden Machine-Learning-Parametern. Das größte Sprachmodell vor diesem, das Turing-NLG-Modell von Microsoft, hatte nur 17 Milliarden Parameter. Die neueste Version von GPT, GPT-4, wurde im März 2023 eingeführt. Im Vergleich zu seinen Vorgängern ist dieses Modell in der Lage, anspruchsvollere Aufgaben zu bewältigen, was auf Verbesserungen in seinem Design und seinen Fähigkeiten zurückzuführen ist.

Was Computerlinguisten tun und wie man einer wird

In der Regel sind Computerlinguisten an Universitäten, in staatlichen Forschungslabors oder in großen Unternehmen beschäftigt. In der Privatwirtschaft setzen Unternehmen in der Regel Computerlinguisten ein, um die korrekte Übersetzung von technischen Handbüchern zu gewährleisten. Technische Softwareunternehmen wie Microsoft stellen Computerlinguisten ein, um im Bereich NLP zu arbeiten und Programmierer dabei zu unterstützen, sprachgesteuerte Benutzeroberflächen zu erstellen, über die Menschen mit Computergeräten kommunizieren können, als wären sie eine andere Person.

Was die Fähigkeiten betrifft, so müssen Computerlinguisten über einen soliden Hintergrund in Informatik und Programmierung sowie über Fachwissen in den Bereichen Machine Learning, Deep Learning, KI, kognitives Computing, Neurowissenschaften und Sprachanalyse verfügen. Sie sollten auch in der Lage sein, mit großen Datensätzen umzugehen, über fortgeschrittene Analyse- und Problemlösungsfähigkeiten verfügen und sich im Umgang mit technischen und nichttechnischen Fachleuten wohlfühlen.

Personen, die eine Stelle als Linguist anstreben, benötigen in der Regel einen Master- oder Doktortitel in einem computerwissenschaftlichen Fachgebiet oder einen Bachelor-Abschluss mit Berufserfahrung in der Entwicklung von Software für natürliche Sprache. Das oberste Ziel der Computerlinguistik ist es, die Kommunikation zu verbessern, die Sprachtechnologie zu revolutionieren und die Interaktion zwischen Mensch und Computer zu verbessern. Zu den allgemeinen Geschäftszielen der Computerlinguistik gehören:

  • Erstellung von grammatikalischen und semantischen Frameworks zur Charakterisierung von Sprachen.
  • Übersetzung von Texten von einer Sprache in eine andere.
  • Text- und Informationsrecherchen zu einem bestimmten Thema.
  • Analyse von Text oder gesprochener Sprache im Hinblick auf Kontext, Stimmung oder andere Eigenschaften.
  • Beantwortung von Fragen, einschließlich solcher, die Schlussfolgerungen und beschreibende oder diskursive Antworten erfordern.
  • Zusammenfassung von Text.
  • Erstellen von Dialogagenten, die in der Lage sind, komplexe Aufgaben zu erledigen, wie zum Beispiel einen Kauf zu tätigen, eine Reise zu planen oder Wartungsarbeiten zu planen.
  • Chatbots erstellen, die den Turing-Test bestehen.
  • Erforschen und identifizieren von Lernmerkmalen und Verarbeitungstechniken, die sowohl die statistischen als auch die strukturellen Elemente einer Sprache ausmachen.
Diese Definition wurde zuletzt im April 2024 aktualisiert

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)