your123 - stock.adobe.com
Amazon SageMaker Canvas für genaue Vorhersagen verwenden
Amazon SageMaker Canvas ist ein Machine Learning Tool, das sich für Profis als auch nicht-technische Anwender eignet. Das Tutorial zeigt, wie man SageMaker Canvas einsetzt.
Das Erstellen und Verwenden von Modellen für maschinelles Lernen (ML) erfordert in der Regel zumindest ein mittleres Verständnis der Softwaretechnik.
Während die meisten Unternehmen die Zusammenarbeit zwischen technischen und nicht-technischen Teams praktizieren, kann das technische Personal aufgrund von Ressourcen nur eine begrenzte Anzahl von Aufgaben übernehmen. Diese Einschränkung macht sich besonders im Bereich des maschinellen Lernens bemerkbar, da es mehrere zeitaufwendige Iterationen erfordert. Daher kann die Bereitstellung von ML-Funktionen für nicht-technische Teammitglieder die Teamproduktivität erhöhen und einen Mehrwert bieten.
Amazon SageMaker Canvas bietet Benutzern, die keine Erfahrung mit Softwarecodierung haben, die Möglichkeit, ML-Modelle zu erstellen und zu verwenden, um Ergebnisse auf der Grundlage verfügbarer Datensätze vorherzusagen. Dieses Tool trägt dazu bei, ML-Technologie in einem Unternehmen allgemein zugänglich zu machen. SageMaker bietet eine benutzerfreundliche GUI in der AWS-Konsole, die die Authentifizierung mit Single Sign-On unterstützt. Das erleichtert den Benutzern den Zugriff, ohne dass sie einen expliziten AWS-Konsolenbenutzer benötigen.
SageMaker Canvas starten
Um mit SageMaker Canvas zu beginnen, müssen Kontoadministratoren zunächst eine SageMaker-Domäne konfigurieren. Diese Domäne bietet Konfigurationen in Bezug auf Identitäts- und Zugriffsmanagementberechtigungen und Benutzerprofile sowie VPC- und Speicherdetails.
In der Amazon SageMaker-Konsole klicken Benutzer auf den Canvas-Link.
Dieser Link führt die Benutzer zur Canvas Landing Page. Von dort aus wählen Administratoren ein Benutzerprofil aus, das sie während der Einrichtung der SageMaker-Domäne konfigurieren, und starten Canvas.
Nachdem ein Benutzer auf Open Canvas geklickt hat, startet SageMaker die relevanten AWS-Ressourcen, beispielsweise die Workspace-Instanz, die für die Ausführung der Benutzeroberfläche erforderlich ist, sowie die Build- und Prediction-Prozesse.
Im Rahmen dieses Schritts erstellt SageMaker einen S3 Bucket mit dem folgenden Namensmuster: sagemaker-<region>-<aws-account-id>. Es ist wichtig, diesen S3-Bucket zu kennen, da er Daten und Artefakte im Zusammenhang mit den von Canvas ausgeführten Aufgaben speichert.
Das Starten der Benutzeroberfläche nimmt einige Minuten in Anspruch.
Daten importieren und Datensätze erstellen
Sobald SageMaker alle Ressourcen erstellt hat und die Benutzeroberfläche einsatzbereit ist, besteht einer der ersten Schritte darin, die Daten zu importieren, die analysiert werden sollen. Canvas unterstützt eine Vielzahl von Datenformaten, wie zum Beispiel CSV, unverschlüsselter Text, Bild- und Dokumentdateien (PNG, JPG, PDF, TIFF). Der geeignete Datentyp hängt von der Art der Vorhersage und des ML-Modells ab, das verwendet wird.
Canvas bietet gebrauchsfertige ML-Modelle, die auf AWS-Services basieren, wie zum Beispiel die folgenden:
- Amazon Comprehend für Sentiment-Analyse, Extraktion von Entitäten, Spracherkennung und Erkennung persönlicher Informationen in CSV- oder unverschlüsselte Textdateien
- Amazon Rekognition für Objekt- und Texterkennung in Bildern
- Amazon Textract für Ausgabenanalyse, Analyse von Identitätsdokumenten und Dokumentenanalyse in Dokumenten- und Bilddateien
Auf der Canvas-Hauptseite wählen Benutzer gebrauchsfertige Modelle aus. Für dieses Beispiel habe ich die Objekterkennung in Bildern (Object detection in images) ausgewählt. Dabei handelt es sich um ein nützliches Modell, das Unternehmensanalysten und Anwendungsentwickler unterstützt, bestimmte Muster und Themen in mehreren Bilddateien zu erkennen. Das Modell agiert auf der Grundlage der berechneten Vorhersagen.
Als nächstes bietet das Tool die Möglichkeit, ein einzelnes Bild hochzuladen, da ich die Option Einzelvorhersage (Single prediction) ausgewählt habe (siehe Abbildung 5).
Das Modell erstellt dann Vorhersagen für das hochgeladene Bild.
Es bietet auch die Möglichkeit, einen bestehenden Datensatz zu erstellen oder zu verwenden, um mehrere Dateien als Batch-Vorhersage zu analysieren. Diese Funktion ermöglicht es verschiedenen Teams, relevante Datensätze innerhalb eines Unternehmens gemeinsam zu nutzen.
Canvas bietet die Möglichkeit, einen Datensatz entweder aus einer lokalen Datei oder aus einem S3-Speicherort zu erstellen. Wie bereits erwähnt, bestimmt der Typ des ausgewählten ML-Modells das Datenformat, das der Datensatz verwendet.
Vorhersagen anzeigen
Sobald der Datensatz erstellt ist, können Benutzer die Vorhersagen für alle darin enthaltenen Dateien anzeigen, was die Skalierbarkeit erleichtert. Für diesen Datensatz identifizierte das Modell mehrere Attribute, die mit jedem Bild verbunden sind. Es erkannte, dass das Bild ein Tier – in diesem Fall eine Katze oder einen Hund – enthält, und fügte weitere relevante Vorhersagen und die Vertrauensstufe für jedes Attribut hinzu.
Die Benutzer können die Vorhersageergebnisse auch im CSV- oder Zip-Format herunterladen. Diese Funktion ermöglicht es den Benutzern, große Datensätze zu verarbeiten und weitere Aktionen auf der Grundlage der exportierten Vorhersageergebnisse zu automatisieren oder gemeinsam zu nutzen.
Neue Modelle erstellen
Mit Canvas können Benutzer auch benutzerdefinierte Modelle erstellen und trainieren, wobei zwei Modi zur Verfügung stehen: Schnell und Standard. Im Schnellmodus kann die Erstellung je nach Modelltyp, wie beispielsweise numerische Vorhersage, kategorische Vorhersage, Zeitreihenvorhersage, Bildvorhersage oder Textvorhersage, zwei bis 30 Minuten dauern.
Der Standardmodus kann zwei bis fünf Stunden dauern. Es wird jedoch erwartet, dass der Standardmodus eine höhere Genauigkeit aufweist als der Schnellmodus. Im Schnellmodus sind die Eingabedatensätze auf 50.000 Einträge begrenzt, bei denen es sich um Datensätze oder Bilder handeln kann, so dass er für große Datensätze über dieser Größe geeignet ist.
Um ein neues Modell zu erstellen, gehen Sie im linken Navigationsmenü zu Meine Modelle (My models) und klicken Sie dann auf Neues Modell (New model).
Wählen Sie dann die Art des Modells aus, das Sie als Ausgangspunkt verwenden möchten, je nach Problemstellung: Vorhersageanalyse, Bildanalyse oder Textanalyse. Für dieses Beispiel habe ich Bildanalyse (Image analysis) gewählt. Die Details zu den folgenden Schritten variieren je nach ausgewähltem Modell und Datensatztyp.
Wählen Sie als nächstes einen vorhandenen Datensatz für die Modellerstellung aus.
Im Falle der Bildanalyse sollte der Datensatz Labels (Beschriftungen) enthalten, die für die bereitgestellten Bilder relevant sind. Alle Bilder müssen gelabelt sein, und jedes Label muss mindestens 25 Bilder zugewiesen sein.
Sobald der Datensatz alle Anforderungen erfüllt, kann der Benutzer den Erstellungsprozess starten. In diesem Fall habe ich die Option Schnelle Erstellung (Quick build) gewählt.
Wenn der Modellaufbau abgeschlossen ist, zeigt Canvas eine Seite mit einer Zusammenfassung der Modellleistung an (siehe Abbildung 17).
An dieser Stelle können die Benutzer eine beliebige Anzahl von Vorhersagen mit neuen oder vorhandenen Datensätzen durchführen.
Freigeben von benutzerdefinierten Modellen
Canvas ermöglicht es Benutzern auch, eigene Modelle in SageMaker Model Registry freizugeben. Teammitglieder können auf die Modelle zugreifen und sie schließlich in anderen Umgebungen, einschließlich Produktionsumgebungen, einsetzen.
Wer sollte SageMaker Canvas verwenden?
SageMaker Canvas ist ein großartiges visuelles Tool für die Erstellung, das Training, die gemeinsame Nutzung und die Vorhersage von ML-Modellen, erfordert jedoch einen erheblichen manuellen Aufwand. Es ist ein wertvolles Werkzeug, mit dem sich auch technisch nicht versierte Benutzer mit ML-Modellen vertraut machen und sie kennenlernen können. Es ermöglicht auch eine schnelle Bewertung bestehender Modelle und die Arbeit an Prototypen.
Für langfristige Produktionseinsätze und hochfrequente und hochvolumige Vorhersagen ist SageMaker jedoch nicht unbedingt das empfohlene Tool. In diesen Fällen ist es besser, die erforderlichen ML-Schritte in SageMaker mithilfe von Automatisierungswerkzeugen außerhalb der Canvas-Oberfläche auszulösen, zum Beispiel mit benutzerdefinierten Scripts und Anwendungskomponenten. Dennoch ist es für alle Teams, die mit SageMaker arbeiten, von Vorteil, sich mit der Canvas-Oberfläche und -Funktionalität vertraut zu machen.