Amazon Transcribe öffnet Tür für Spracherkennungs-Apps

Der Audio-Transkriptionsdienst Amazon Transcribe hat die Aufmerksamkeit von Entwicklern geweckt. Allerdings hat der Service auch einige Beschränkungen.

von

George Lawton

Zuletzt aktualisiert: 20 Juni 2018

Amazon Transcribe bietet Sprach-zu-Text-Transkription in einem größeren Maßstab. Wie die APIs von Microsoft, Google und IBM ermöglicht der Dienst Entwicklern, lange Audio- und Videodateien in formatierten Text umzuwandeln.

Entwickler können die automatische Spracherkennung von Amazon Transcribe in ihre Workflows einbinden und die Dateien in andere native oder Drittanbieterdienste ausgeben, die auf der AWS-Plattform laufen. Transcribe unterstützt gängige Audio- und Videodateiformate, einschließlich WAV, MP3, FLAC sowie MP4, und fügt automatisch Zeitstempel für jedes Wort sowie abgeleitete Satzzeichen hinzu.

Der Dienst kann ebenfalls Audioaufnahmen von geringerer Qualität transkribieren. Das funktioniert auch von einem Telefon aus. Die erste Version von Amazon Transcribe unterstützt allerdings nur Englisch und Spanisch, weitere Sprachen sind geplant.

Die Transcribe-API enthält drei Aufrufe: StartTranscriptionJob, ListTranscriptionJobs und GetTranscriptionJob. StartTranscriptionJob startet den Prozess der Konvertierung von Audio- oder Videodateien in Text. ListTranscriptionJobs gibt eine Liste der ausstehenden, abgeschlossenen und fehlgeschlagenen Jobs zurück. GetTranscriptionJob liefert einen Link zu einer JSON-Datei mit zeitcodierter Textausgabe.

Amazon Transcribe kostet USD 0.0004 pro Sekunde. Entwickler können ein kostenloses Kontingent, das bis zu 60 Minuten pro Monat umfasst, testen.

Neue Sprachanwendungen und Möglichkeiten

Amazon Transcribe steckt noch in den Kinderschuhen, so dass es die Genauigkeit menschlicher Transkription in naher Zukunft nicht ersetzen wird. Aber der Service ermöglicht neue Anwendungsfälle rund um Call-Center-Analysen, Anrufprotokollierung, Stimmungsanalyse, automatisierte Beschriftung, gezielte Werbung und verbesserte Audio- und Videosuche.

Amazon plant, Funktionen hinzuzufügen, die es Entwicklern ermöglichen, den Spracherkennungswortschatz zu erweitern und anzupassen. Diese Fähigkeiten können die Benutzerfreundlichkeit mit speziellem Vokabular verbessern, wie zum Beispiel Notizen von medizinischem Fachpersonal oder Reparaturanweisungen von Technikern.

Der Dienst bietet auch die Möglichkeit, verschiedene Sprecher in einem Gespräch oder einer Aufnahme zu erkennen. Diese Funktion hilft Entwicklern, zwischen mehreren Stimmen in einer Audiodatei zu unterscheiden, zum Beispiel zwischen Anrufern und Kunden oder Schauspielern in einem Film.

Amazon Transcribe kann außerdem die Einhaltung der Compliance in regulierten Branchen vereinfachen, Kundeninteraktionen aufzeichnen oder automatisch Notizen erfassen, transkribieren und indexieren. Andere Dienste, wie Amazon Comprehend, können mit Transcribe integriert werden, um automatisch die Bedeutung und Absichten aus Gesprächen zu extrahieren.

Die Zeitstempel von Transcribe kann in Untertiteldateien von Filmen und Fernsehsendungen integriert werden, um Untertitel für Hörgeschädigte zu erstellen, oder in Übersetzungsanwendungen, um fremdsprachige Untertitel zu erzeugen. In Verbindung mit der Text-to-Speech-Engine Amazon Polly kann Transcribe sogar helfen, automatisch Audiodateien in der Zielsprache zu erzeugen.

Langfristig kann die Kerntechnologie die Alexa-Kommunikationsschnittstelle verbessern, um das lange Diktieren von E-Mails und Office-Notizen zu ermöglichen.

Vorsichtig vorgehen

Amazon Transcribe scheint gut geeignet für die Workflow-Automatisierung rund um Predictive Analytics und Trendanalyse zu sein. Die meisten Transkriptions-Engines erzielen jedoch nur mit hochwertigen Mikrofonen in ruhiger Umgebung hervorragende Ergebnisse.

Darüber hinaus werden Unternehmen in Anwendungsfällen, die sich auf die Gesundheit oder Sicherheit einer Person beziehen, wahrscheinlich mit Haftungsproblemen konfrontiert, zum Beispiel bei medizinischen Aufzeichnungen oder Rezepten. Diese Anwendungen erfordern eine Überprüfung der Genauigkeit durch Menschen.

Die Transcribe-API erleichtert die Integration in Verifikations-Workflows. Aber es ist wichtig zu beachten, dass Amazon Transcribe derzeit nur als asynchrone API anbietet, was bedeutet, dass es keine Garantie dafür gibt, wie lange es dauern wird, bis die Ergebnisse vorliegen.

Eine gute Transkription hängt zum Teil davon ab, dem Benutzer, der zum Beispiel murmelt oder undeutlich spricht, Feedback zu geben. Eine Echtzeit-API, die sofortiges Feedback liefert und die Anpassung von Algorithmen erleichtert, liefert bessere Ergebnisse in sicherheitskritischen Szenarien.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Amazon Neptune: Graphdatenbank für KI-Anwendungen.

Amazon SimpleDB: Cloud-NoSQL-Datenbank für flexible Abfragen.

Amazon DAX verwaltet Datenbankspitzen für mehr Performance.

Amazon Transcribe öffnet Tür für Spracherkennungs-Apps

Der Audio-Transkriptionsdienst Amazon Transcribe hat die Aufmerksamkeit von Entwicklern geweckt. Allerdings hat der Service auch einige Beschränkungen.

Neue Sprachanwendungen und Möglichkeiten

Vorsichtig vorgehen

Nächste Schritte

Erfahren Sie mehr über Cloud Computing

Generative KI in Unified Communications effektiv nutzen

Open-Source-KI-Modelle: Tools und Plattformen kennenlernen

Die 10 besten SaaS-Anwendungen für Unternehmen

5 Collaboration-Funktionen, die Sie besser deaktivieren