Laurent - stock.adobe.com
Auf dem Weg zur KI: Erschließung des Datenmaterials
Unternehmen kommen heute nicht mehr um den Einsatz von KI herum. In dieser dreiteiligen Artikelserie werden die notwendigen Schritte zur KI-Implementierung beschrieben.
Im Rahmen der digitalen Transformation avanciert künstliche Intelligenz (KI) immer mehr zur Notwendigkeit für Unternehmen – auch in der Fertigungsindustrie. Doch ihre Nutzung lässt sich nicht im Vorbeigehen initiieren. Der Weg zur KI-Anwendung will gut überlegt und strategisch angegangen sein.
Was bei der Erschließung und Aufbereitung der Daten beginnt, setzt sich mit der Entwicklung und dem Test von Modellen fort. Die Integration und der Einsatz des Modells in die Praxis werden durch ein konstantes Monitoring unterstützt. Erst wenn diese Schritte gemeistert sind, kann KI ihr ganzes Potenzial entfalten. Alles aber fängt mit dem Rohmaterial an: den Daten.
Mit Machine Learning Operations (MLOps) zum KI-Modell
Der Ansatz der Wahl bei der Entwicklung anwendungsgerechter KI-Modelle nennt sich MLOps. Als Übertragung des DevOps-Ansatzes aus dem Anwendungsbereich erlaubt MLOps den Durchlauf jedes KI-Modells durch den kompletten Lebenszyklus.
Den Anfang macht die Bedarfsanalyse, gefolgt von der Sammlung und Aufbereitung der Informationen durch einen Data Engineer. Doch welche Daten werden benötigt, wie kann die Informationsflut bewältigt werden – und wie genau werden sie KI-einsatzfähig gemacht?
Herausforderung unstrukturiertes Datenmaterial
Laut IDC entfallen auf die Verwaltung, Recherche, Aufbereitung und Sicherung des Datenmaterials ganze 81 Prozent des Gesamtaufwands bei der Datenverarbeitung, sodass nur 19 Prozent für die eigentliche Analyse bleiben. Das bedeutet: Gerade hier kommt es auf effiziente Prozesse und ausreichende Ressourcen an, um diesen Aufwand so klein wie möglich zu halten.
Das jedoch fällt schon allein wegen der Tatsache nicht leicht, dass 80 Prozent des Materials unstrukturierte Daten sind. Dabei handelt es sich um Texte wie Produktbeschreibungen, Bewertungen von Verbrauchern oder Reklamationen, aber auch um von Industrieanlagen erstellte Dateien, Fotos oder Videos. Die Herausforderung besteht darin, diese Informationen analysefähig zu machen. Damit sie den entsprechenden Algorithmen zugeführt werden können, braucht es eine Big-Data-Infrastruktur. Und diese wiederum bedingt ein breit gefächertes Spektrum an geeigneten Speichertechnologien, damit Data Engineers und Data Scientists die notwendige Flexibilität haben.
Hier kommt die Cloud ins Spiel. Die Anbieter von Cloud-Diensten müssen – wollen sie dem Bedarf gerecht werden – ein komplettes Portfolio an Speicherlösungen bieten. Nur dann können sie die verschiedenen anwendungsfallspezifischen Anforderungen erfüllen. Wenn die Speicherlösungen in as-a-Service-Form verfügbar sind, erspart dies dem IT-Team auf Kundenseite zudem das Einsetzen und Warten von Softwarekomponenten.
Data Preparation: Historisierung im Fokus
Sind die unterschiedlichen Daten gespeichert, ist nur der erste Schritt getan. Nun gilt es, in die Analyse- und Verarbeitungsphase zu gehen, um die Informationen für KI-Modelle und -Anwendungen verwertbar zu machen.
Dabei kommt es vor allem auf drei Gruppen von Spezialisten an: Data Engineers und Data Analysts sorgen dafür, dass die Daten im Zuge der Data Preparation von Fehlern, Doubletten und Abweichungen bereinigt werden. Im nächsten Schritt werden sie als Vorarbeit für die anschließenden Aktivitäten der Data Scientists verarbeitet und extrahiert. Eine so genannte temporale Datenhaltung (Historisierung) sorgt dafür, dass Vorhersagen zu einem späteren Zeitpunkt auf ihre Richtigkeit überprüft werden können, sodass sich Trainingseinstellungen und Änderungen anhand der entsprechenden Skripte und Datensätze nachverfolgen lassen.
„Laut IDC entfallen auf die Verwaltung, Recherche, Aufbereitung und Sicherung des Datenmaterials ganze 81 Prozent des Gesamtaufwands bei der Datenverarbeitung, sodass nur 19 Prozent für die eigentliche Analyse bleiben.“
Stefan Schäfer, OVHcloud
Dies ist insbesondere bei Anwendungen in den Bereichen Sicherheit und Gesundheit wichtig, denn gerade hier muss jede Entscheidung gut begründet werden – und zwar sowohl mit dem Code zur Modellerstellung als auch mit dem konkreten Datensatz. Grundsätzlich haben Verwaltungs- und Historisierungskapazitäten beim Aufbau einer KI-Plattform eine kritische Funktion.
Cloud-Option bietet zahlreiche Vorteile
Auch hierbei spielt die Cloud eine maßgebliche Rolle – als Alternative dazu, dass bei einer On-Premises-Lösung zahlreiche Datenverarbeitungs-Tools benötigt werden und somit verfügbar sein müssen, wenn der KI-Ansatz des Unternehmens ausgearbeitet wird. In der Cloud stehen diese Tools, die in der Regel von Beginn an für einen Kollaborationsansatz ausgelegt sind, idealerweise schlüsselfertig bereit und können von den Data Engineers und Scientists genutzt werden.
Dabei werden sie – wiederum im Idealfall – von integrierten gemanagten Diensten für die Datenvorbereitung in all ihren Etappen unterstützt. So lässt sich nicht nur die aufwendige Beschaffung der Tools und die stückweise Inanspruchnahme externer Serviceanbieter vermeiden, sondern auch jegliche Datentransfers zwischen verschiedenen Servern. Das spart Zeit, Ressourcen und auch Geld.
Mit den genannten Schritten lassen sich die vorhandenen Daten unstrukturierter und strukturierter Natur so aufbereiten, dass sie für entsprechende KI-Algorithmen nutzbar werden. Damit kommen die Unternehmen, die sich zu diesem Schritt entschlossen haben, ihrem Ziel ein entscheidendes Stück näher.
Grundsätzlich gelten einige Regeln für den Umgang mit Daten, die jedes Unternehmen bei der Implementierung und Nutzung von KI-Modellen beherzigen sollte:
- Auf den Standort der Daten achten. Die europäischen Rechtsvorschriften fokussieren sich zunehmend auf die Datensouveränität der Bürger Europas. Personenbezogene Daten in einem Land außerhalb der EU zu speichern, zu verarbeiten oder ein Backup durchzuführen, kann juristisch schwierig werden.
- Die Daten anonymisieren. Der Schutz personenbezogener Daten ist ein wichtiger Aspekt bei künstlicher Intelligenz und Big Data allgemein. Um Verstöße gegen die DSGVO zu vermeiden, müssen die Daten im frühestmöglichen Stadium anonymisiert werden.
- Datenverwaltung ganzheitlich denken. Der Cloud-Anbieter muss die Datenspeicherung gewährleisten und außerdem den Data Engineers Tools zur unkomplizierten Verarbeitung und Aufbereitung der Daten für die Algorithmen zur Verfügung stellen.
- Ein ethischer Ansatz für KI. Es gilt abzuwägen, was möglich ist, und was nötig ist. Nicht alle Daten mit möglichem Wert für die Wirtschaft lassen sich auch ethisch vertretbar nutzen.
- Mit Open-Source-Technologie Reversibilität gewährleisten. Durch die Nutzung offener Cloud-Plattformen lässt sich der gefürchtete Vendor Lock-in vermeiden. Zudem sollten Unternehmen auf Vertragsklauseln achten, die einen späteren Wechsel des Cloud-Anbieters erschweren können.
Anmerkung: Dies ist der erste Teil einer dreiteiligen Artikelserie zur Implementierung künstlicher Intelligenz in Unternehmen. Der zweite und dritte Teil erscheinen in den kommenden beiden Wochen jeweils mittwochs.
Über den Autor:
Stefan Schäfer ist Experte für Produktmanagement, IT und Marketing und arbeitet seit rund 15 Jahren in der Cloud Computing Branche. Beim europäischen Cloud Provider OVHcloud verantwortet er das Produktmarketing in der Region Central Europe.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.