Kesu - Fotolia
Was muss? Was kann? Datenhygiene für Big Data und KI
Die Marktauguren übertreffen sich immer wieder in der Berechnung der Datenmenge, die gespeichert werden muss. Lässt sich die Datenflut eindämmen? Welche Daten werden noch benötigt?
Das weltweite Datenwachstum ist enorm. Marktauguren übertreffen sich regelmäßig mit neuen Vorhersagen im Zettabytes-Bereich für die Zukunft.
Vor noch gar nicht so vielen Jahren erwähnte ein CIO in einem Gespräch über das Konzept Big Data und die Notwendigkeit, möglichst viele Daten für künftige Analysen zu speichern, den Begriff der Datenhygiene. Der IT-Experte verband damit die feste Überzeugung, durch eine Analyse beliebiger Informationen keinen wirklichen Nutzen zu erlangen, der sich nicht auch anders erreichen ließe. Deswegen sorgte der CIO in dem beherrschten Rechenzentrum für Law & Order hinsichtlich der Daten. Striktes Backup-Regime. Archivierung von Geschäftsdaten. Deduplizierung bis auf die Endgeräte der Marketing-Abteilung. Die Begründung: Was wirklich wichtig ist, steckt im Data Warehouse oder im Archiv. Strenge Plattenplatz-Quoten mahnten die User zur Ordnung auf den Servern.
Doch wären dann auch Big-Data-Analysen machbar gewesen?
Wer kennt noch VMS? Ein kurzer Exkurs
Das längst verflossene Betriebssysteme VMS (Virtual Memory System) das die geneigten Leser vielleicht noch von den DEC VAX/11 Supermini-Computern kennen war ja in vieler Hinsicht komfortabel. So konnte man mit einer einfachen Kommandozeile nicht nur alle Dateien löschen, deren Datum der Erzeugung und/oder Änderung eine gewisse Zeit zurück lag. Man konnte in den Dateieigenschaften auch ein Verfallsdatum eintragen und bei einer Aufräumaktion einfach alle Dateien in den Orkus werfen, deren Verfallsdatum überschritten ist. Auch heutige Betriebssysteme bieten noch die Funktion des Verfallsdatums. Die entsprechenden Befehle werden aufgrund des im Vergleich zu früher sehr preiswerten Speicherplatzes nur nicht mehr genutzt.
Datenhygiene wurde damals also von den Betriebssystemen unterstützt.
Big Data – die „KI“ der 2010er Jahre
Big Data war ein aktuelles Schlagwort. Die Vision: Wenn man nur genügend Daten zusammenführe, zum Beispiel in einem Data Lake, könne man viele klug ausgedachte Suchfunktionen und Analysen mit diesen Daten durchführen und so neue Erkenntnisse gewinnen, die man ohne die große Datenmasse nicht herausfinden könne.
Ein ganz praktisches Beispiel: In einer Druckerei gibt es drei Produktionsstrecken. Diese sind gleich ausgestattet. Es werden im Rollenoffset-Druck die gleichen Produkte hergestellt, nur eben mit unterschiedlichen Inhalten. Die Grammatur des Papiers ist identisch. Der Schwärzungsgrad unterscheidet sich nur marginal. Dennoch hat eine Anlage an bestimmten Tagen eine geringere Ausbeute. Wieso?
Die Analyse aller verfügbaren Sensordaten zeigt, dass die Feuchte des Papiers auf dieser Anlage geringfügig über der Toleranz ist. Daher fährt die Anlage ihr Tempo herunter. Doch wieso betrifft das nicht die anderen beiden Anlagen?
Erst eine Analyse der gesamten Lieferkette ergibt, dass die Anlage A ihr Papier mit der Spedition Meyerbrincks & Co geliefert bekommt. Die anderen Anlagen bekommen das Papier aus der gleichen Fabrik, jedoch von einer anderen Spedition.
Das war sehr dubios, doch man forschte weiter: Schlussendlich ergab sich aus der Analyse aller Produktions-, Logistik-, Kalender- und Wetterinformationen, dass der Fehler an regnerischen Tagen auftritt, wenn Meyerbrincks & Co das Papier bringt. In den Fahrzeugdaten schließlich steckte die redensartliche Nadel im Heuhaufen. Meyerbrincks & Co benutzt Lkw mit Plane, während die anderen Speditionen Kastenaufbauten hatten. An regnerischen Tagen nimmt das Papier auf dem Lkw mit Plane so viel Luftfeuchtigkeit auf, dass es den Sensoren der Anlage zu viel wird.
Ermittelt wurde diese Erkenntnis also aus der Analyse große Mengen von Daten, die ursprünglich gar nicht im gleichen Zusammenhang gesammelt und gespeichert worden waren.
Aber man braucht doch die Daten!
Die Aufgaben für die IT-Abteilungen dieser Welt sind so vielfältig wie die Unternehmen und die Menschen, die dort arbeiten. Ein Logistikunternehmen arbeitet an der Verbesserung der Prognose seiner Touren. Das Pflichtenheft für die Verbesserung der Vorhersagen hatte ursprünglich einige hundert Datenpunkte vom offensichtlichen wie Route und Fahrzeugdaten über die Besatzung bis hin zum Verbrauch an Ressourcen. Nachdem aufgrund eines Vetos des Betriebsrats die personenbezogenen Daten nicht mehr betrachtet wurden, blieben etwas über 300 Datenpunkte übrig. Eines Tages erkundigte sich ein Mitarbeiter nach der Menge der GPS-Daten und beim nächsten Sprint-Meeting lagen dafür sehr exakte Informationen vor. Es ging um hunderte Gigabytes.
Hier kam schnell die Problematik auf, wie diese Daten auf einer Cloud-basierenden Prognosesoftware in Echtzeit hätten verarbeitet werden können. Die erste Idee war einfach: Man nimmt nur jedes 1000. Datum und verringert so die zu übertragende Datenlast. Aber vielleicht steckt ja genau in den weggelassenen Daten die Information, die für die Verbesserung der Prognose erforderlich wäre? Ein Teufelskreis.
Inzwischen gibt es Konzepte wie Edge Computing. Die Aufgabe des Logistikers wäre dadurch aber nicht einfacher geworden. Darum entscheid man sich, die Analyse der GPS-Daten nicht in der Cloud zu rechnen, sondern die Ergebnisse anderweitig zusammenzuführen.
Datenhygiene im Zeitalter von KI
Im Zeitalter der künstlichen Intelligenz (KI), die ja in vieler Hinsicht auf Big Data folgt und darauf aufbaut, spielt Datenhygiene hinsichtlich der Qualität der Ergebnisse der KI, und zwar in fast jedem Bereich, eine Rolle. Das alte Prinzip Garbage in – Garbage out ist so wichtig wie noch nie. Wer die KI mit vielen unwichtigen oder gar unsinnigen Informationen füttert, bekommt nicht die guten Antworten, wie jüngste Experimente zum Vergleich zwischen Gemini und ChatGPT zeigen, um nur die volkstümliche Variante von KI hier heranzuziehen.
Daher ist es ganz wichtig, Datenhygiene mit einer wohlüberlegten Methodik zu betreiben. Das kann manuell gehen, muss auch automatisiert sein. Die Anwender sollen die Anbieter von KI-Lösungen fragen, was sie zur Bewertung der Relevanz eines Datums vorschlagen. So sollte eine KI-Software beispielsweise helfen, zu beurteilen, welche Daten auf den unternehmensweiten Datenträgern künftig eine Relevanz erhalten könnten und welche nicht. Gleichfalls kann die KI-Lösung suchen, welche Informationen anderswo ebenfalls existieren. Das können Bauteil-Informationen in der Konstruktion und Entwicklung ebenso sein wie eine Studie, die gerade im Marketing ganz wichtig erscheint.
Eine KI-Lösung kann dabei ihre Stärken so richtig ausspielen: Entscheidungsbäume schaffen, durchgehen und über die Verknüpfung von Informationen und Sprachmodelle Gemeinsamkeiten und Unterschiede erkennen und zeigen.
Was als Big Data begann und heute unter dem KI-Schlagwort das IT-Leben gestaltet, ist somit nur eine konsequente Entwicklung der IT-Geschichte.
Über den Autor:
Holm Landrock ist Freier Journalist und Analyst in Dresden mit einem Schwerpunkt auf Enterprise-IT und neue Technologien darunter Supercomputing und Big Data.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.