Die passende Machine-Learning-Plattform auswählen
Der Machine-Learning-Markt ist in den letzten Jahren immer größer und unübersichtlicher geworden. Die Top-Kriterien für die Wahl des richtigen Anbieters.
Mit der zunehmenden Anzahl von Machine-Learning-Anbietern wird ein Vergleich von Plattformen immer schwieriger. Viele der Lösungen bieten eine solche Fülle an Funktionen, dass sich IT-Entscheider bei der Auswahl überfordert fühlen. Dabei kommt es im Grunde nur darauf an, eine Plattform zu wählen, welche die anstehenden Aufgaben gut löst.
„Wir wollen nur das richtige Werkzeug für den passenden Job auswählen können“, sagt Chris Robison, leitender Data Scientist bei Overstock.com. In einem Webinar von Databricks, einem in San Francisco ansässigen Unternehmen, das Managed-Spark-Produkte anbietet, beschrieb Robison, wie sein Team die Software von Databricks einsetzt, um die Besucher der Overstock-Website nach ihrer Kaufbereitschaft zu bewerten.
Bei dem Lernprozess werden zunächst nur die rohen Weblog-Daten verwendet und mit bestimmten Features versehen. Die Daten werden in Benutzersitzungen gruppiert, die dann sequentiell geordnet werden. So entsteht ein Bild der Aktionen, die zu einem Kauf führen. Sobald die Daten strukturiert sind, trainiert das Team Machine-Learning-Algorithmen, um die mit einem Kauf verbundenen Aktionen zu klassifizieren.
Der Prozess erfordert mehrere Schritte. Sie reichen von der Datenaufbereitung über den Modellbau bis hin zur Erstellung von Algorithmen. Robison sagt, dass eine Datenplattform, die all diese Aktionen ausführen kann, dabei hilft, Projekte vom Proof of Concept in die Produktion zu überführen.
Ein weiteres Feature der Plattform, welches das Team bei der Bereitstellung von Modellen unterstützt, ist die hohe Flexibilität bei der Unterstützung verschiedener Programmiersprachen. Robison sagt, dass die einzelnen Mitglieder des Teams unterschiedliche Sprachen verwenden, darunter R, Python und Scala.
Die Sprachwahl hängt zum einen davon ab, was der einzelne Data Scientist am besten beherrscht. Zum anderen davon, was für den spezifischen Teil des Modellbaulebenszyklus am besten geeignet ist. Robison sagt, dass Databricks mehrere Versionen all dieser Sprachen unterstützt und das Werkzeug zwischen Versionen und Sprachen wechseln kann. „Es gibt keinen Königsweg für eine dieser Aufgaben, also warum nicht alle ausprobieren“, sagt Robison.
Natürlich ist Databricks nicht die einzige Machine-Learning-Plattform, die diese Funktionen anbietet. In dem Webinar erläuterte Forrester-Analyst Mike Gualtieri, dass es derzeit 47 verschiedene Anbieter gibt, die Machine-Learning-Produkte in ihrem Portfolio haben.
Gualtieri beschrieb dabei zehn Kriterien, die bei einem Vergleich der Machine-Learning-Plattformen zu beachten sind:
- Datenaufbereitungsfunktionen;
- Datenbank mit vorgefertigten Algorithmen;
- Skalierbarkeit;
- Unterstützung von Open-Source-Programmiersprachen;
- Eine Workbench-ähnliche Oberfläche;
- Collaboration-Funktionen, die die gemeinsame Nutzung von Projekten ermöglichen;
- Deployment-Optionen;
- Modell-Management-Tools zur Verfolgung der Effektivität von Modellen in der Produktion;
- Fertige Tools für gängige Geschäftsprobleme, wie die Modellierung von Kundenabwanderungen; und
- die Fähigkeit des Verkäufers, seine Versprechen einzuhalten.
Das richtige Tool zu wählen wird immer schwieriger. „Es wird da draußen zusehends verwirrend“, sagt Gualtieri. „Es gibt viele kleine Anbieter in diesem Bereich. Am besten prüft man die Fähigkeit des Unternehmens, seine Vision umzusetzen.“
Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!