chombosan - stock.adobe.com

Polly, Rekognition, Lex und Bedrock: KI-Dienste in AWS nutzen

AWS stellt verschiedene KI-Dienste zur Verfügung. Polly, Rekognition, Lex und Bedrock sollen Kunden bei der Entwicklung eigener KI-Anwendungen unterstützen.

AWS stellt verschiedene KI-Diensten bereit, die Entwicklungsprozesse unterstützen und intelligente Funktionen in bestehende Systeme integrieren. Einige dieser Services sind kostenlos nutzbar beziehungsweise bieten Testversionen an. Wir stellen in diesem Beitrag ausgewählte KI-Dienste von AWS vor, die für Entwicklungsprojekte relevant sind.

Amazon Polly: Transformation von Text in Sprache

Amazon Polly wandelt Text in eine natürliche Sprachausgabe um. Der Dienst unterstützt eine breite Palette von Sprachen und Stimmen, die für die Erstellung von Anwendungen, die Sprachausgabe benötigen, eingesetzt werden können. Amazon Polly eignet sich für die Entwicklung von Sprachassistenten, die Bereitstellung von Audioinhalten und die Verbesserung der Zugänglichkeit von Anwendungen. Ein kostenfreies Kontingent erleichtert den Einstieg in den Dienst.

Polly erlaubt eine nahtlose Integration in Anwendungen über verschiedene Schnittstellen. Mit der AWS CLI, den AWS SDKs für gängige Programmiersprachen und einer REST API bietet der Dienst flexible Anbindungen. Die Unterstützung von SSML erlaubt es, granulare Einstellungen wie Sprechgeschwindigkeit, Tonhöhe und Pausen für eine personalisierte Sprachausgabe zu konfigurieren. Für spezialisierte Anforderungen an die Aussprache unterstützt Polly die Definition eigener Lexika, um die Aussprache von Akronymen oder firmenspezifischen Begriffen zu optimieren.

Amazon Polly
Abbildung 1: Amazon Polly wandelt Text in gesprochene Worte um. Der Dienst lässt sich eingeschränkt auch kostenlos nutzen.

Neural Text-to-Speech (NTTS) und ein Newscaster-Sprachstil ergänzen die Fähigkeiten von Polly. NTTS verwendet eine neue maschinelle Lernmethode, um eine verbesserte Sprachqualität zu erzielen. Diese Technologie ist für eine Auswahl von Stimmen verfügbar, darunter drei britischen und acht US-Stimmen, sowohl in Echtzeit als auch im Batch-Modus. Der Newscaster-Sprachstil zielt darauf ab, Erzählungen, wie beispielsweise Blogposts oder Nachrichtenartikel, ähnlich klingen zu lassen, wie man es von Fernseh- oder Radiosendungen gewohnt ist.

Amazon Polly unterstützt zudem Speech Marks und Whispering (Flüstern). Speech Marks sind Metadaten, die Entwicklern die Synchronisation von Sprache mit visuellen Erlebnissen erlauben. Diese Funktion kann zum Beispiel für Lippensynchronisation, indem Sprache mit Gesichtsanimationen synchronisiert wird, oder das Hervorheben von geschriebenen Wörtern, während sie gesprochen werden, eingesetzt werden. Whispering ermöglicht es, bestimmte Textteile in einer geflüsterten Stimme auszugeben. Die beiden Features erweitern die Ausdrucksmöglichkeiten von Polly und bieten Entwicklern neue Werkzeuge zur Verbesserung der Benutzerinteraktion​​.

Amazon Rekognition: Erkennung und Analyse von Bildern und Videos

Amazon Rekognition bietet Analysefunktionen für Bilder und Videos. Der Dienst kann Objekte, Personen, Texte, Szenen und Aktivitäten in Bildmaterial erkennen und automatisiert Bild- und Videoanalysen. Rekognition findet Anwendung in der Sicherheitstechnik, bei der Medienanalyse und zur Verbesserung der Kundeninteraktion durch personalisierte Inhalte. Nutzer können den Dienst kostenlos testen, um dessen Potenzial für eigene Projekte zu evaluieren.

Amazon Rekognition bietet eine umfangreiche Menge an Machine-Learning-Modellen, die kontinuierlich mit neuen Daten trainiert werden, um die Genauigkeit zu verbessern. Der Dienst stellt spezialisierte Programmierschnittstellen (API) für die Erkennung von Gesichtern, Texten in Bildern und die Analyse von Videos bereit. Über diese APIs lassen sich komplexe Anforderungen wie die Erkennung von Stimmungen, die Identifikation von Objekten oder die Erstellung von Sicherheitsanwendungen implementieren. Rekognition kann zudem in Echtzeit eingesetzt werden, was die Verwendung in Überwachungssystemen oder für Live-Content-Moderation zulässt.

Amazon Rekognition
Abbildung 2: Amazon Rekognition unterstützt bei der Analyse von Bildern und Videos mit KI-Technologien.

Zu den Neuerungen zählt die Einführung von Face APIs Version 7, die eine höhere Genauigkeit und reduzierte Latenzzeiten für nahezu Echtzeit-Gesichtserkennungs-, Vergleichs- und Suchfunktionen bietet. Diese Verbesserungen sind insbesondere für Kunden aus Branchen wie Finanzdienstleistungen, Gig Economy, Telekommunikation, Gesundheitswesen und soziale Medien von Bedeutung, da sie Funktionen wie die Erkennung von Lebendigkeit, Gesichtsvergleich und -suche für virtuelle Onboarding-Prozesse, fortlaufende Authentifizierung und altersbasierte Zugangsbeschränkungen nutzen​.

Darüber hinaus verfügt Amazon Rekognition über neue Funktionen, welche die Erkennung und das Lesen von Text in Bildern, die Echtzeiterkennung von Gesichtern sowie die Erkennung von Gesichtern in überfüllten Bildern ermöglichen. Diese Funktionen sind darauf ausgelegt, die Genauigkeit der Gesichtsverifikation und -identifikation zu verbessern, was insbesondere für Kunden, die bereits Amazon Rekognition für Gesichtsverifizierungs- und Identifikationszwecke nutzen, von Vorteil ist​.

Ein weiteres neues Angebot von Amazon – Rekognition Video – gestattet die Automatisierung von vier häufigen Medienanalyseaufgaben. Dazu gehören die Erkennung von Schwarzblenden, Abspannen, Schnittwechseln und Farbbalken mit vollständig verwalteten, ML-gestützten APIs. Diese Funktionen vereinfachen die Ausführung von Workflows wie Inhaltsvorbereitung, Werbeeinschaltung und das Hinzufügen von Binge-Markern zu Inhalten im großen Maßstab. Die Amazon Rekognition Video Segment Detection API erlaubt es, diese Medienanalysefunktionen zu integrieren und damit beispielsweise Werbung in Bereichen einzufügen, die das Zuschauererlebnis nicht stören​.

Amazon Lex: Erstellung konversationeller Schnittstellen mit Alexa

Amazon Lex ist die Technologie hinter Alexa und ermöglicht die Erstellung interaktiver Schnittstellen mit natürlichsprachlicher Verarbeitung. Durch die Einbindung von Amazon Lex in Anwendungen lassen sich Chatbots und virtuelle Assistenten realisieren, die auf natürliche Spracheingaben reagieren. Der Dienst findet Einsatz im Kundenservice, E-Commerce und vielen weiteren Bereichen, um die Benutzerinteraktion zu vereinfachen und zu personalisieren. Ein kostenfreies Testangebot unterstützt Entwickler bei der Erkundung von Amazon Lex.

Der Dienst profitiert von den Erkenntnissen und der Technologie hinter Alexa, um Entwicklern eine Plattform für die Erstellung von Conversational Interfaces zu bieten. Lex unterstützt die Erkennung natürlicher Sprache (Natural Language Understanding, NLU) und die Konvertierung von Sprache zu Text (Automatic Speech Recognition, ASR) für hochinteraktive Dialoge. Die Integration mit AWS Lambda erlaubt die Verknüpfung von Chatbots mit Backend-Logik und -Ressourcen. Dadurch lassen sich zum Beispiel Benutzeranfragen in Echtzeit dynamisch beantworten. Lex bietet auch eine intuitive Konsole zur Erstellung und Verwaltung von Bots, die keine tiefere Kenntnis in Machine Learning erfordert.

Amazon Lex
Abbildung 3: Mit Amazon Lex lassen sich Chatbots auf Basis von Alexa-Technologien erstellen.

Amazon Lex hat in jüngerer Vergangenheit neue Funktionen erhalten, die generative KI nutzen, um das Erstellen von Chatbots zu vereinfachen. Damit lassen sich unter anderem natürlichere und intuitivere Self-Service-Assistenten erstellen, die menschenähnliche Interaktionen bieten. Zu den Neuerungen gehören außerdem eine verbesserte FAQ-Handhabung und ein beschleunigter Bot-Erstellungsprozess durch beschreibendes Bot-Building, das automatisch Intents, Trainingsäußerungen und Flows generiert. Zudem wurde die Slot-Auflösung verbessert, um die Nutzererfahrung zu optimieren​.

AWS und Anthropic arbeiten schließlich an Amazon Bedrock zusammen, um die Möglichkeiten generativer KI zu erweitern. Diese Plattform erlaubt es Kunden, mit großen Sprachmodellen und anderen Grundmodellen, wie der Claude-Modellfamilie von Anthropic, maßgeschneiderte generative KI-Anwendungen zu entwickeln.

Seit der allgemeinen Verfügbarkeit von Bedrock im September 2023 haben über 10.000 Kunden, darunter ADP und GoDaddy, diese Technologie genutzt, um innovative Kundenerlebnisse zu schaffen. Die neuen Claude 3-Modelle bieten verbesserte Leistung für verschiedene Anwendungsfälle.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)