kirill_makarov - stock.adobe.com
Machine-Learning-Modelle erfordern DevOps-ähnliche Workflows
James Kobielus, Principal Analyst at Franconia Research, erläutert im Interview, warum Themen wie KI und neuronale Netze einen Hype erleben und wie Datenanalysten damit umgehen.
Big Data bildet die Grundlage vieler Machine-Learning- und KI-Projekte. Die Veränderungen, die Machine-Learning-Modelle für die Big-Data-Analyse mit sich bringen, sind allerdings nicht ohne weiteres ersichtlich.
James Kobielus, Principal Analyst at Franconia Research, erläutert in diesem Interview, warum Themen wie künstliche Intelligenz (KI), Machine Learning und neuronale Netze in den letzten zehn Jahren einen Hype erleben, wie Datenanalysten damit umgehen und welche Workflows bei der Entwicklung von Machine-Learning- und Deep-Learning-Modellen notwendig sind.
Künstliche Intelligenz (KI) befand sich einige Jahre im Winterschlafe. Hat KI nur darauf gewartet, dass Big Data auftaucht?
James Kobielus: KI ist schon eine Weile da. Im Kern umfasste es regelbasierte Expertensysteme. Diese umfassen feste Regeln, die von Fachexperten geschrieben werden müssen. In den letzten zehn Jahren hat sich künstliche Intelligenz im weitesten Sinne, sowohl in der Forschung als auch in der Kommerzialisierung der Technologie, weg von festen, deklarativen, regelbasierten Systemen hin zu statistischen, wahrscheinlichkeits- und datengesteuerten Systemen verschoben.
Darum geht es bei Machine-Learning-Modellen. Machine Learning ist der Kern der modernen KI. Es geht darum, Algorithmen zu verwenden, um Korrelationen und Muster in Datensätzen abzuleiten. Das hilft bei Dingen wie Predictive Analytics, Spracherkennung und so weiter. Ein großer Teil des Interesses rund um das Thema geht in jüngerer Zeit von neuronalen Netzen aus. Das sind statistische Algorithmen, die in vielerlei Hinsicht so aufgebaut sind, dass sie die neuronalen Verknüpfungen in unseren Gehirnen nachahmen. Auch dieser Bereich existiert bereits seit den 1950er Jahren.
In den letzten zehn Jahren sind neuronale Netze viel leistungsfähiger geworden. Eines der Dinge, die sie viel mächtiger gemacht haben, ist die Tatsache, dass es viel mehr Daten gibt. Ein Großteil davon sind unstrukturierte Daten, die aus der realen Welt stammen, zum Beispiel Social-Media-Informationen für die Kundenanalyse.
Das hat sich ergeben, seit Dinge wie Facebook, LinkedIn und Twitter Teil unseres Lebens geworden sind. Und es ist von großem Wert, wenn man in den Kopf seiner Kunden eindringen kann. Die Grenze bildet Deep Learning. Das ist Machine Learning mit mehr Verarbeitungsschichten, mehr neuronalen Schichten, die in der Lage sind, Abstraktionen der Daten auf höherer Ebene abzuleiten.
Welchen Herausforderungen sehen sich Datenanalysten gegenüber, wenn sie auf die neuen Technologien umsteigen?
Kobielus: Zunächst einmal ist es eine Tatsache, dass dies harter Stoff ist. Es ist eine komplexe Sache, die es zu entwickeln und richtig umzusetzen gilt. Jede Organisation braucht eine Gruppe von Entwicklern, die die Werkzeuge und Fähigkeiten der Datenwissenschaft beherrschen.
Data Scientists sind diejenigen, die diese Modelle bauen, trainieren und mit tatsächlichen Daten testen, das heißt sie müssen feststellen, ob ein Modell vorhersagt, was es vorhersagen soll. Es reicht nicht aus, die Algorithmen zu bauen. Man muss sie auch trainieren, um sicherzustellen, dass sie für den Zweck, für den sie gebaut wurden, geeignet sind. Und Training ist harte Arbeit.
Man muss die Daten aufbereiten. Das ist keine leichte Aufgabe. Dreiviertel der Arbeit beim Aufbau der KI besteht darin, die Daten für das Training zu beschaffen und vorzubereiten. Die Datensätze sind riesig, und sie laufen auf verteilten Clustern. Häufig sind Hadoop und NoSQL beteiligt. Es kostet Geld, all das zu implementieren.
Es ist denkbar, dass Sie einen Großteil dieser Infrastruktur an Ihren Cloud-Provider auslagern. Sei es Amazon Web Services, Microsoft Azure oder IBM Cloud. Noch einmal, es ist nicht billig. Es ist klar, dass Sie die Unterstützung der Unternehmensleitung benötigen, um das Budget für die Einstellung der Mitarbeiter und den Erwerb der entsprechenden Technologie aufzubringen.
Modelle für maschinelles Lernen müssen regelmäßig überprüft werden. Kommt an dieser Stelle DevOps stärker ins Spiel?
Kobielus: Ja, Sie müssen die KI-Modelle, die Sie einsetzen, immer wieder neu bewerten und trainieren. Nur weil Sie sie einmal entwickelt und trainiert haben und sie an der Vorhersage des Phänomens, mit dem Sie sich befassen, gearbeitet haben, bedeutet das nicht, dass sie für immer funktionieren.
„In den letzten zehn Jahren sind neuronale Netze viel leistungsfähiger geworden. Eines der Dinge, die sie viel mächtiger gemacht haben, ist die Tatsache, dass es viel mehr Daten gibt.“
James Kobielus, Franconia Research
Man begegnet immer wieder einem sogenannten Modellzerfall. Das haben Data Scientists schon immer erlebt. Modelle werden mit der Zeit immer weniger vorhersagbar. Das liegt einfach daran, dass sich die Welt verändert. Das Modell hinter der Vorhersage eines Artikels, auf den ein Kunde vor drei Jahren in Ihrem E-Commerce-Portal geklickt hat, ist möglicherweise nicht mehr so vorhersagbar. Es kann andere Variablen geben, die die Rücklaufquote vorhersagen. Am Ende müssen Sie also umstellen und neu trainieren.
Und das erfordert eine KI-Ausrichtung mit einem DevOps-Workflow. All das zu tun, ist nicht trivial. Das heißt, Sie müssen einen Workflow erstellen, der operational ist. Das bedeutet, dass Sie immer sicher sein müssen, dass Sie über die besten Schulungsdaten und die am besten geeigneten KI- und Machine-Learning-Modelle verfügen.