Getty Images/iStockphoto

Tipp

KI-Sprachtechnologie bringt Unternehmen Vorteile und Risiken

KI eröffnet Unternehmen, die den Nutzen ihrer Spracherkennungssysteme steigern wollen, faszinierende Perspektiven. Aber man sollte sich hüten, zu viel und zu schnell zu erwarten.

von

Jon Arnold, J Arnold & Associates

Zuletzt aktualisiert:13 Febr. 2024

Die Spracherkennungstechnologie war schon immer ein wichtiger Bestandteil der Unternehmenskommunikation. Die Sprachtechnologie ist ziemlich ausgereift und bietet ein hohes Maß an Nutzen, insbesondere für Telefonie und Besprechungsräume. Mit dem Aufkommen der künstlichen Intelligenz (KI) entstehen jedoch neue Anwendungen für Sprache, die unter einem anderen Blickwinkel betrachtet werden müssen.

Die Genauigkeit von Sprache zu Text und Transkription ist wichtig. Die zugrunde liegende alte Technologie lässt sich jedoch nur schrittweise verbessern, so dass es hier keine transformative Fähigkeit gibt. Die KI-gesteuerte Spracherkennungstechnologie hingegen bietet Innovationen, die einen neuen Geschäftswert schaffen, vor allem weil diese Fähigkeiten verschiedene Herausforderungen angehen können.

Die Anwendung von KI auf die Spracherkennung führt zu einem Umfang und einer Geschwindigkeit, die weit über das hinausgehen, was herkömmliche Sprachtechnologien leisten können. Im Gegensatz zur Transkription, bei der es um das genaue Erfassen von Sprache in Text geht, kann die heutige KI aus dem Gesprochenen Verständnis und Absicht ableiten. Dadurch ergeben sich neue Anwendungsmöglichkeiten.

Im Folgenden betrachten wir einige der wichtigsten Vorteile und Herausforderungen im Zusammenhang mit der KI-Sprachtechnologie.

Vorteile der KI-Sprachtechnologie

1. Neuer Wert durch Transkription

Herkömmliche Sprache-zu-Text-Tools sind arbeitsintensiv und waren nie dafür gedacht, jedes Gespräch zu erfassen. Der Vorteil der KI-gesteuerten Spracherkennung liegt vordergründig in einer besseren, schnelleren und kostengünstigeren Transkription. Es gibt aber auch einen übergeordneten Nutzen in Form von Sprache zu Text in einem viel größeren Umfang.

Die Transkriptionsgenauigkeit von KI ist ein Teil der Gleichung, aber ein noch größerer Wert ergibt sich aus neuen Datenströmen, wenn Sprache in Text umgewandelt wird. Je mehr Daten in eine KI-Engine eingespeist werden, desto mehr Wert bietet sie, da sie mit Tools wie maschinellem Lernen die Genauigkeit weiter verbessert und Muster erkennt, um bessere Geschäftsentscheidungen zu treffen.

2. Automatisierung von Arbeitsabläufen

Da die Spracherkennungsgenauigkeit immer besser wird, sind die Mitarbeiter zunehmend bereit, Sprache als Schnittstelle für KI-basierte Anwendungen zur Automatisierung von Arbeitsabläufen zu nutzen. Anstatt manuell mehrere Schritte zu durchlaufen, um eine Besprechung zu planen oder die Ergebnisse eines Berichts mit dem Team zu teilen, lassen sich Chatbots über die Stimme steuern, um diese Aufgaben und Prozesse zu automatisieren. Diese Fähigkeiten, die als digitale persönliche Assistenten bezeichnet werden, sind gerade erst im Kommen. Sie ermöglichen es Arbeitnehmern, ihre eigenen Bots zu nutzen, die sprachbasierte Befehle und Abfragen verstehen können.

Generative KI bietet zusätzliche Automatisierungsmöglichkeiten. Obwohl die Technologie noch nicht ausgereift ist, können Arbeitnehmer mit generativer KI einen Bot per Sprache oder Text auffordern, eine E-Mail oder einen Brief in ihrer eigenen Stimme zu verfassen, was zusätzliche Zeit und Mühe spart. Die ersten Ergebnisse sind vielversprechend, da glaubwürdige Antworten mit nur minimalen Eingaben von Menschen verfasst werden können.

3. Berührungslose Interaktion

Dies ist eine weitere Form der Automatisierung und stammt aus der Zeit der COVID-19-Pandemie, als körperliche Distanz und berührungslose Interaktion die Regel waren. Diese Bedenken haben sich inzwischen gelegt, aber es gibt viele Anwendungsfälle, in denen die Stimme ein besseres Medium ist als die Berührung. Diese Anwendungsfälle haben weniger mit Spracherkennung als vielmehr mit Sprach- und Sprechererkennung zu tun. Während sich die meisten Spracherkennungstechnologien auf die Kommunikation konzentrieren, zielen diese berührungslosen Anwendungen auf die Authentifizierung ab. Die Sprachbiometrie ließe sich zum Beispiel einsetzen, um zu kontrollieren, wer Zugang zu gesperrten Bereichen erhält. Sprachaufforderungen könnten auch dazu verwendet werden, eine Sitzung zu beginnen und zu leiten oder Finanztransaktionen durchzuführen.

Risiken der KI-Sprachtechnologie

1. Probleme mit der Sprachgenauigkeit

Auch wenn die KI die Grundlage für Innovationen in der Spracherkennungstechnologie bildet, darf man nicht vergessen, dass sie nicht hundertprozentig genau ist. Aber das sind Menschen ja auch nicht. Das Risiko besteht darin, dass KI-Anwendungen über recht einfache, sofort einsatzbereite Funktionen verfügen. Infolgedessen wird ihre anfängliche Leistung in Bezug auf die Genauigkeit wahrscheinlich hinter den Erwartungen zurückbleiben.

Denken Sie daran: KI ist ein iterativer Prozess. Die Leistung verbessert sich, je mehr man sie einsetzt und je mehr Datensätze ihr zur Verfügung stehen. Es ist daher unvernünftig, von einer KI zu erwarten, dass sie von Anfang an eine nahezu perfekte Sprachgenauigkeit aufweist. Wenn Fehler jedoch einmal erkannt und behoben sind, wiederholen sie sich nicht mehr. Die Risiken im Zusammenhang mit der Sprachgenauigkeit werden mit der Zeit immer geringer.

2. Probleme mit der inhaltlichen Genauigkeit

Hierbei handelt es sich um eine andere Art von Genauigkeit, die eine schwierigere Form des Risikos darstellt. Wenn man über einfache Sprache-zu-Text-Anwendungen hinausgeht, werden KI-Tools eingesetzt, um Muster zu erkennen, die Menschen nicht sehen können, und um Inhalte und Zusammenfassungen zu erstellen. Um hier effektiv zu sein, müssen KI-Tools die komplexeren Nuancen der Sprache verstehen, zum Beispiel den Kontext und die Absicht.

KI kann nur auf der Grundlage menschlicher Eingaben arbeiten und weiß daher nicht, wie sie die Bedeutung herausfinden kann, insbesondere in mehrdeutigen Situationen. Dies kann zu Halluzinationen führen, bei denen die Ausgabe zwar grammatikalisch und syntaktisch korrekt, aber sachlich falsch oder unsinnig ist. Um dieses Risiko zu mindern, muss der Mensch an verschiedenen Stellen des Prozesses eingreifen. Dieses manuelle Eingreifen könnte den Zweck des Einsatzes von KI schnell zunichtemachen.

3. Vertrauen und Nutzerakzeptanz

Es gibt viele Gründe, warum die Menschen der künstlichen Intelligenz noch nicht trauen. Diese Gefühle werden sich nur verstärken, wenn die Ergebnisse schlecht sind. Die KI soll die Dinge besser machen, nicht schlechter. Wenn es um Sprache geht, gibt es nur wenig Spielraum für Fehler. Selbst bei Verwendung ausgefeilter Tools können KI-basierte Sprach-zu-Text- oder Chatbots gestelzt, unpersönlich und roboterhaft wirken. Wenn KI zu sehr versucht, menschliche Emotionen nachzuahmen, wirkt sie aufgesetzt.

Menschen können diese Exzentrizitäten schnell erkennen und verlieren dann das Vertrauen in die KI. Ohne Vertrauen werden sie diese Tools nicht annehmen, was die Entscheidung der IT-Abteilung, KI einzusetzen, in Frage stellen könnte. Das Risiko besteht darin, zu viel von der Verknüpfung von KI und Sprache zu erwarten. Ist das Vertrauen erst einmal gebrochen, lässt es sich nur schwer wiederherstellen. Stattdessen sollte Vertrauen als ein zentraler Baustein für KI betrachtet werden, und der Aufbau von Vertrauen sollte eine der wichtigsten Erfolgskennzahlen beim Einsatz neuer KI-Sprachtechnologie in Ihrem Unternehmen sein.