Spracherkennung
Spracherkennung ist die Fähigkeit einer Maschine oder eines Programms, gesprochene Wörter zu erkennen und sie in lesbaren Text umzuwandeln. Rudimentäre Spracherkennungssoftware verfügt über einen begrenzten Wortschatz und kann nur Wörter und Sätze erkennen, die deutlich gesprochen werden. Anspruchsvollere Software kann natürliche Sprache, verschiedene Akzente und verschiedene Sprachen verarbeiten.
Die Spracherkennung stützt sich auf ein breites Spektrum von Forschungsarbeiten in den Bereichen Informatik, Linguistik und Computertechnik. Viele moderne Geräte und textorientierte Programme sind mit Spracherkennungsfunktionen ausgestattet, um die Nutzung eines Geräts zu erleichtern oder die Steuerung ohne Hände zu ermöglichen.
Spracherkennung und Stimmerkennung sind zwei verschiedene Technologien und sollten nicht miteinander verwechselt werden:
- Die Spracherkennung dient dazu, Wörter in gesprochener Sprache zu identifizieren.
- Die Stimmerkennung ist eine biometrische Technologie zur Identifizierung der Stimme einer Person.
Wie funktioniert Spracherkennung?
Spracherkennungssysteme verwenden Computeralgorithmen, um gesprochene Wörter zu verarbeiten, zu interpretieren und in Text umzuwandeln. Ein Softwareprogramm wandelt den Ton, den ein Mikrofon aufnimmt, in geschriebene Sprache um, die von Computern und Menschen verstanden werden kann, und folgt dabei den folgenden vier Schritten:
- Der Ton wird analysiert,
- die erkannten Wörter und Sätze werden in Teile zerlegt,
- in ein computerlesbares Format digitalisiert und
- es wird ein Algorithmus angewendet, um die Sprache der geeigneten Textdarstellung zuzuordnen.
Spracherkennungssoftware muss sich an die äußerst variable und kontextspezifische Natur der menschlichen Sprache anpassen. Softwarealgorithmen, die Audiodaten verarbeiten und in Text umwandeln, werden auf verschiedene Sprachmuster, Sprechstile, Sprachen, Dialekte, Akzente und Formulierungen trainiert. Die Software trennt auch gesprochene Audiodaten von Hintergrundgeräuschen, die das Signal oft begleiten.
Um diese Anforderungen zu erfüllen, verwenden Spracherkennungssysteme zwei Arten von Modellen:
- Akustische Modelle. Diese stellen die Beziehung zwischen den sprachlichen Einheiten der Sprache und den Audiosignalen dar.
- Sprachmodell. Hier werden Klänge mit Wortsequenzen abgeglichen, um zwischen ähnlich klingenden Wörtern zu unterscheiden.
Für welche Anwendungen wird Spracherkennung eingesetzt?
Spracherkennungssysteme haben eine ganze Reihe von Anwendungsmöglichkeiten. Hier ist eine Auswahl:
Mobilgeräte. Smartphones verwenden Sprachbefehle für die Anrufweiterleitung, die Verarbeitung von Sprache in Text, die Sprachwahl und die Sprachsuche. Die Benutzer können auf einen Text antworten, ohne auf ihr Gerät schauen zu müssen. Bei Apple iPhones steuert die Spracherkennung die Tastatur und Siri, den virtuellen Assistenten von Apple. Die Funktion ist in verschiedenen Sprachen verfügbar. Spracherkennung ist auch in Textverarbeitungsprogrammen wie Microsoft Word zu finden, wo Benutzer Wörter diktieren können, die dann in Text umgewandelt werden.
Bildungswesen. Spracherkennungssoftware wird im Sprachunterricht eingesetzt. Die Software hört die Sprache des Benutzers und bietet Unterstützung bei der Aussprache.
Kundenbetreuung. Automatisierte Sprachassistenten hören sich Kundenanfragen an und stellen hilfreiche Ressourcen zur Verfügung.
Anwendungen im Gesundheitswesen. Ärzte können Spracherkennungssoftware verwenden, um Notizen in Echtzeit in Krankenakten zu transkribieren.
Unterstützung von körperlich eingeschränkten Personen. Spracherkennungssoftware kann gesprochene Worte mit Unterstützung von Untertiteln in Text übersetzen, so dass auch Menschen mit Hörverlust verstehen, was andere sagen. Spracherkennung kann außerdem Menschen mit eingeschränkter Handfunktion die Arbeit am Computer ermöglichen, indem sie Sprachbefehle anstelle des Tippens verwenden.
Gerichtsgutachten. Mit Unterstützung von Software können Gerichtsverhandlungen transkribiert werden, so dass keine menschlichen Schreiber mehr benötigt werden.
Erkennung von Emotionen. Mit dieser Technologie können bestimmte Merkmale der Stimme analysiert werden, um festzustellen, welche Emotion der Sprecher empfindet. In Verbindung mit einer Stimmungsanalyse kann dies Aufschluss darüber geben, wie jemand über ein Produkt oder eine Dienstleistung denkt.
Freihändige Kommunikation. Autofahrer nutzen die Sprachsteuerung für die Freisprechkommunikation, um zum Beispiel Telefone, Radios und GPS-Systeme zu bedienen.
Was sind Merkmale von Spracherkennungssystemen?
Gute Spracherkennungsprogramme lassen sich an die eigenen Bedürfnisse anpassen. Zu den Funktionen, die dies ermöglichen, gehören:
- Sprachgewichtung. Mit dieser Funktion wird der Algorithmus angewiesen, bestimmten Wörtern besondere Aufmerksamkeit zu schenken, zum Beispiel solchen, die häufig gesprochen werden oder die für das Gespräch oder das Thema einzigartig sind. So kann die Software beispielsweise darauf trainiert werden, nach bestimmten Produktbezügen zu suchen.
- Akustisches Training. Die Software blendet Umgebungsgeräusche aus, die den gesprochenen Ton verunreinigen. Softwareprogramme mit Akustiktraining können Sprachstil, Tempo und Lautstärke inmitten des Lärms vieler Menschen, die in einem Büro sprechen, unterscheiden.
- Sprecherkennzeichnung. Mit dieser Funktion kann ein Programm einzelne Teilnehmer kennzeichnen und ihre spezifischen Beiträge zu einem Gespräch identifizieren.
- Filterung von Schimpfwörtern. Hier filtert die Software unerwünschte Wörter und Sprache heraus.
Was sind die verschiedenen Algorithmen der Spracherkennung?
Die Leistung von Spracherkennungsfunktionen beruht auf einer Reihe von Algorithmen und Technologien. Dazu gehören:
- Hidden Markov Model (verdecktes Markowmodell, HMM). HMMs werden in autonomen Systemen verwendet, bei denen ein Zustand nur teilweise beobachtbar ist oder wenn dem Sensor (im Falle der Spracherkennung ein Mikrofon) nicht alle für eine Entscheidung erforderlichen Informationen unmittelbar zur Verfügung stehen. Ein Beispiel hierfür ist die akustische Modellierung, bei der ein Programm sprachliche Einheiten mit Unterstützung statistischer Wahrscheinlichkeiten an Audiosignale anpassen muss.
- Natural Language Processing (Verarbeitung natürlicher Sprache, NLP). NLP vereinfacht und beschleunigt den Spracherkennungsprozess.
- N-Gramm. Dieser einfache Ansatz für Sprachmodelle erstellt eine Wahrscheinlichkeitsverteilung für eine Sequenz. Ein Beispiel wäre ein Algorithmus, der sich die letzten gesprochenen Wörter ansieht, den Verlauf der Sprachprobe annähert und daraus die Wahrscheinlichkeit des nächsten gesprochenen Wortes oder Satzes bestimmt.
- Künstliche Intelligenz (KI). Künstliche Intelligenz und Methoden des maschinellen Lernens wie Deep Learning und neuronale Netze sind in moderner Spracherkennungssoftware weit verbreitet. Diese Systeme nutzen Grammatik, Struktur, Syntax und Zusammensetzung von Audio- und Sprachsignalen, um Sprache zu verarbeiten. Systeme mit maschinellem Lernen gewinnen mit jeder Anwendung an Wissen, so dass sie gut für Nuancen wie Akzente geeignet sind.
Was sind Vorteile der Spracherkennung?
Der Einsatz von Spracherkennungssoftware hat mehrere Vorteile, darunter:
- Kommunikation von Maschine zu Mensch. Die Technologie ermöglicht es elektronischen Geräten, mit Menschen in natürlicher Sprache oder in gesprochener Sprache zu kommunizieren.
- Leichter Zugang. Die Software ist häufig auf Computern und Mobilgeräten installiert und somit leicht zugänglich.
- Einfach zu benutzen. Gut konzipierte Software ist einfach zu bedienen und läuft oft im Hintergrund.
- Kontinuierliche, automatische Verbesserung. Spracherkennungssysteme mit künstlicher Intelligenz werden mit der Zeit immer effektiver und benutzerfreundlicher. Wenn die Systeme Spracherkennungsaufgaben erfüllen, generieren sie mehr Daten über die menschliche Sprache und werden immer besser in ihrer Arbeit.
Was sind Nachteile der Spracherkennung?
Die Spracherkennungstechnologie ist zwar praktisch, aber es gibt noch einige Probleme, die gelöst werden müssen. Zu den Beschränkungen gehören:
- Inkonsistente Leistung. Die Systeme sind unter Umständen nicht in der Lage, Wörter genau zu erfassen, weil die Aussprache variiert, einige Sprachen nicht unterstützt werden und Hintergrundgeräusche nicht aussortiert werden können. Umgebungsgeräusche können eine besondere Herausforderung darstellen. Akustisches Training kann helfen, sie herauszufiltern, aber diese Programme sind nicht perfekt. Manchmal ist es unmöglich, die menschliche Stimme zu isolieren.
- Schnelligkeit. Einige Spracherkennungsprogramme brauchen Zeit, um eingesetzt und beherrscht zu werden. Die Sprachverarbeitung kann sich langsam anfühlen.
- Probleme mit der Quelle. Der Erfolg der Spracherkennung hängt nicht nur von der Software, sondern auch vom verwendeten Aufnahmegerät ab.