Definition

Sprachsynthese

von

Redaktion ComputerWeekly.de, TechTarget

Zuletzt aktualisiert: Sept. 07, 2022

Was ist Sprachsynthese?

Sprachsynthese ist die computergenerierte Simulation der menschlichen Sprache. Sie wird eingesetzt, um schriftliche Informationen in akustische Informationen zu übertragen, wo dies bequemer ist, insbesondere bei mobilen Anwendungen wie sprachgesteuerten E-Mails und Unified Messaging. Sie wird auch zur Unterstützung von Sehbehinderten eingesetzt, so dass zum Beispiel der Inhalt eines Bildschirms einem blinden Benutzer automatisch vorgelesen werden kann. Die Sprachsynthese ist das Gegenstück zur Sprach- oder Stimmerkennung.

Sprachprothese

Bei der Sprachprothese handelt es sich um computergenerierte Sprache für Menschen mit körperlichen Behinderungen, die es ihnen erschweren, verständlich zu sprechen. Ein Großteil der Forschung in diesem Bereich integriert sowohl die Text- als auch die Spracherzeugung, da die Behinderungen, die Probleme mit der Sprache verursachen, häufig auch die Texteingabe erschweren. In Anbetracht der Geschwindigkeit und Flüssigkeit menschlicher Gespräche besteht die Herausforderung der Sprachprothese darin, diese Schwierigkeiten zu umgehen. Das Hauptziel der Forschung besteht darin, ein prothetisches System zu entwickeln, das der natürlichen Sprache so nahe wie möglich kommt und so wenig Eingaben wie möglich vom Benutzer erfordert. Sprachprothesensysteme ermöglichen es auch sehbehinderten Menschen, Computer zu benutzen.

Multimodale Sprachsynthese

Die multimodale Sprachsynthese (manchmal auch als audiovisuelle Sprachsynthese bezeichnet) beinhaltet ein animiertes Gesicht, das synchronisiert wird, um die synthetisierte Sprache zu ergänzen. Die gleichen Schwierigkeiten, die der Sprachbehinderung einer Person zugrunde liegen, behindern oft auch ihre Fähigkeit, durch Gesichtsausdrücke zu kommunizieren. Obwohl die synthetisierte Sprache immer lebensechter wird, kann es noch eine ganze Weile dauern, bis sie an die Fähigkeit der natürlichen Sprache heranreicht, Nuancen zu erkennen. Multimodale Systeme bieten die Möglichkeit, der Sprache nonverbale Hinweise hinzuzufügen (zum Beispiel Kopfschütteln, Lächeln und Zwinkern), um die Absicht des Benutzers so deutlich wie möglich zu machen.

Geschichte der Sprachsynthese

Die ersten Versuche zur Sprachsynthese stammen aus dem Jahr 1779, als der russische Professor Christian Kratzenstein einen Apparat auf der Grundlage des menschlichen Vokaltrakts entwickelte, um die physiologischen Unterschiede bei der Erzeugung von fünf langen Vokalen zu demonstrieren. Der erste voll funktionsfähige Sprachsynthesizer, Homer Dudleys VODER (Voice Operating Demonstrator), wurde 1939 auf der Weltausstellung gezeigt. Der VODER basierte auf den Forschungen der Bell Laboratories zum Vocoder (Sprachcodierer) aus der Mitte der dreißiger Jahre.

Sprachsynthese

Was ist Sprachsynthese?

Sprachprothese

Multimodale Sprachsynthese

Geschichte der Sprachsynthese

Erfahren Sie mehr über Unified Communications

Perplexity AI verwenden: Tutorial sowie Vor- und Nachteile

Menschliche und künstliche Intelligenz im Überblick

Basiswissen GPT-4o: Funktionen und Einschränkungen im Überblick

Google Gemini (ehemals Bard)

Was ist Sprachsynthese?

Sprachprothese

Multimodale Sprachsynthese

Geschichte der Sprachsynthese

Ähnliche Begriffe

Erfahren Sie mehr über Unified Communications

Perplexity AI verwenden: Tutorial sowie Vor- und Nachteile

Menschliche und künstliche Intelligenz im Überblick

Basiswissen GPT-4o: Funktionen und Einschränkungen im Überblick

Google Gemini (ehemals Bard)