Elnur - stock.adobe.com
Gute Datenqualität ist ein Muss für Machine Learning
Wenn Unternehmen Machine-Learning-Anwendungen einsetzen, müssen sie erst ihre Daten prüfen. Initiativen zur Verbesserung der Datenqualität sind deshalb wichtig.
Da maschinelles Lernen immer häufiger in Unternehmen eingesetzt wird, müssen auch immer häufiger große Datenmengen für das Training und die Ausführung von Machine-Learning-Modellen bereitgestellt werden. Die Rolle der Daten darf dabei nicht unterschätzt werden. Lediglich einige technischen Änderungen vorzunehmen reicht nicht aus, um von Machine Learning zu profitieren. Vor allem eine gute Datenqualität ist entscheidend für die Leistungsfähigkeit solcher Modelle.
Datenqualität ist ein Kernbestandteil des Daten-Managements. Sie ist allein schon deshalb wichtig, um die Ergebnisse von Analytics-Applikationen glaubwürdig zu machen. Über das Thema Datenqualität wird schon gesprochen, solange es die IT-Branche gibt.
Benutzererfahrung ist wichtig, und Geschäftsanwendern analytische Ergebnisse zu erklären, ist ein Muss. Die anhaltenden Fortschritte in der Analytik verblüffen immer wieder. Aber bei allem Gerede über Datenqualität wird deren Relevanz oft übersehen. Das ist gefährlich, besonders bei Machine-Learning-Daten.
Warum ist Datenqualität besonders bei Machine Learning wichtig? Beim maschinellen Lernen können schlechte Daten nur schwer bis gar nicht erkannt beziehungsweise entfernt werden. Der Algorithmus zieht Schlüsse aus Datensätzen, die möglicherweise schlechte Daten enthalten. Ab einem gewissen Grad wird es unmöglich, herauszufinden, auf welchen Datenelementen die Vorhersagen basieren. So wird Machine Learning zur Black-Box-Technologie.
„Verlernen“ ist fast unmöglich. Wird ein Element entfernt, kollabiert das ganze Modell. Genau wie beim menschlichen Gehirn. Fußt unser erlerntes Wissen in Teilen auf falschen Grundannahmen oder Informationsbausteinen, verliert der ganze Komplex seinen Wert und wir müssen von vorne beginnen.
Machine Learning benötigt viele Daten
Maschinelles Lernen ist noch in einer frühen Anwendungsphase. Man kann sich natürlich fragen, ob der Bedarf an großen Datenmengen – wie ihn Machine-Learning-Modelle erwarten – wirklich neu ist. Schließlich nutzen bereits viele bestehende Analysesysteme solche Datenmassen. Genau das ist einer der Gründe, warum der Begriff Big Data irreleitend ist. Unternehmen haben schon immer mit vielen Daten zu tun gehabt, und einen bestimmten Zeitraum als Big-Data-Ära zu bezeichnen, ist ähnlich irreführend wie eine bestimmte Kunstperiode als modern zu benennen.
Machine Learning treibt die Dimensionen allerdings weiter voran: Die Realität ist, dass Deep Learning – ein fortgeschrittener und erfolgreicher Ableger des maschinellen Lernens – weitaus größere Datenmengen benötigt als herkömmliche analytische Anwendungen.
In der deterministischen Analytik und statistischen Verarbeitung gibt es feste Beziehungen zwischen Datenelementen, und feste Erwartungen für die Analyse der Daten werden in Algorithmen kodiert. Die Power von Deep Learning liegt darin, dass es selbstständig Algorithmen generieren und verfeinern kann, während es aus den Daten lernt. Dazu ist ein hinreichend großer Datensatz erforderlich, um die für die genaue Entwicklung der Algorithmen erforderliche Variation zu gewährleisten.
Angesichts des benötigten Datenvolumens und der eingesetzten evolutionären Methoden ist eine gute Datenqualität noch wichtiger als früher. Bevor ein Unternehmen Machine-Learning- oder Deep-Learning-Anwendungen nutzt, sollte es seine Daten verstehen und versuchen, diese zu verbessern. Fragen, die es zu klären gilt, bevor man sich ernsthaft mit maschinellen Lernsystemen beschäftigt, sind zum Beispiel: Welche Systeme stellen Daten bereit? Wie kann auf sie zugegriffen werden? Und wie können Datensätze zur Analyse kombiniert werden?
… und saubere Daten
Sie benötigen außerdem einen soliden Prozess zur Bereinigung der Daten. Damit Machine-Learning- und Deep-Learning-Modelle sauber lernen können, müssen die Datensätze, mit denen sie trainiert werden, vertrauenswürdig sein. Das erhöht die Notwendigkeit, ordentliche Daten für maschinelle Lernsysteme bereitzustellen.
Im Gegenzug können maschinelle Lernalgorithmen selbst den Prozess zur Erhöhung der Datenqualität unterstützen. Das kann beispielsweise dadurch erreicht werden, dass die Algorithmen große Datensätze auf Matching-Probleme, Anomalien und andere Fehler überprüfen.
Hier ein Beispiel: In den späten 1990er Jahren entwickelte ein Unternehmen Analytics-Software zur Suche nach Mustern in Daten. Die Suche fand an einem Unix-Rechner mit einem Algorithmus statt, der im Rahmen einer Dissertation entwickelt wurde. Das Unternehmen verwendete statistische Verfahren, um sowohl einzelne Datenpunkte als auch Muster innerhalb eines Datensatzes besser zu verstehen.
Das Produkt war früh erfolgreich, aber das Unternehmen scheiterte an schlechten Verkaufsentscheidungen. Dennoch hat es in seiner kurzen Lebensdauer bewiesen, dass es die Fähigkeit besitzt, Probleme der Datenqualität mit Hilfe von Analytics zu lösen. Das wird mit zunehmender Reife von Machine Learning Tools immer leichter.
Ein solides Fundament aufbauen
Die frühe Entwicklungsstand des maschinellen Lernens sollte einen nicht daran hindern, mit Technologieanbietern zu sprechen, die Machine-Learning-Systeme aufbauen. Bevor man aber die Diskussionsphase verlässt, ist eine gewisse Vorbereitung erforderlich. Hierbei sollte man insbesondere sicherstellen, dass bei Machine-Learning-Anwendungen eine gute Datenqualität gewährleistet ist.
Man sollte vorhandene Analytics-Applikationen katalogisieren und sich die Daten ansehen, die diese Anwendungen verwenden und generieren. Anschließend sollte man sich überlegen, wie sich die Genauigkeit der Daten erhöhen lässt, um sie für Machine-Learning- und Deep-Learning-Anwendungen nutzbar zu machen.
Zunächst sollte man aber fehlende Qualität und Konsistenz außen vorlassen. Das hat zwei Vorteile:
- Erstens tragen die für die Datenqualität aufgewendeten Ressourcen dazu bei, die Daten in der gesamten Informationsinfrastruktur zu verbessern – und nicht nur in Machine- Learning-Anwendungen.
- Zweitens ist eine gute Datenqualität entscheidend für das zunehmend regulierte Datenumfeld. Die Datenschutz-Grundverordnung der Europäischen Union (EU-DSGVO / GDPR), ist einer der größten Anreize für die wachsende Notwendigkeit, Unternehmensdaten besser zu verstehen, zu sichern, zu verfolgen und zu kontrollieren.
Machine Learning steckt noch in den Anfängen. Aber auch wenn die praktische Umsetzung im großen Stil noch auf sich warten lässt: Schon jetzt ist es an der Zeit, die Datenqualität in Ordnung zu bringen. Die Technologie hat ein so starkes Potenzial, dass man unmittelbar mit dem Aufbau der erforderlichen Datengrundlage beginnen sollten. Nur dann kann man die Vorteile von Machine-Learning-Tools voll ausschöpfen.
Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!