Strategien für effektives Datenlöschen im Zeitalter der KI

Für KI braucht es Big Data. Doch veraltete Daten können zu Datenschutzverletzungen verursachen. Unternehmen sollte eine Strategie für das Löschen von Daten haben.

von

Alexander Zschaler, Fivetran

Zuletzt aktualisiert: 14 Aug. 2024

Im Jahr 2024 wird sich die Menge an unstrukturierten Daten, die Unternehmen verwalten, verdoppeln, so eine Studie von Forrester Research. Gleichzeitig steigt die Gefahr von Verletzungen des Datenschutzrechts. Allein in den letzten Monaten sind Hacker an sensible Daten zum Beispiel von der Katholischen Jugendfürsorge Augsburg, der Bezirksklinik Mittelfranken und der Stadtverwaltung von Helsinki, von Dropbox, Infosys oder Boeing gelangt. Diese Datenschutzverletzungen werden zudem immer teurer: IBM hat ermittelt, dass sich die durchschnittlichen Gesamtkosten eines solchen Falles im Jahr 2024 auf 4,88 Millionen US-Dollar belaufen – zehn Prozent mehr als noch 2023.

Um diesen Gefahren vorzubeugen, müssen Unternehmen Daten effektiv verwalten können. Dazu gehören auch klare Richtlinien zum Löschen von veralteten Daten. Im Hinblick auf künftige Möglichkeiten von generativer KI zögern viele jedoch, Daten zu löschen. Doch je länger ein Unternehmen Daten speichert, desto größer ist die Gefahr von Datenschutzverletzungen oder Geldstrafen wegen Verstößen gegen das Datenschutzrecht. Zudem lassen sich durch das Löschen veralteter Daten auch die Speicherkosten reduzieren.

Obsolete Daten identifizieren

Der beste Weg, um festzustellen, welche Daten als obsolet betrachtet werden können und welche auch künftig noch einen Geschäftswert bieten, beginnt mit einer Data Map. Sie sollte die Quellen und Arten der eingehenden Daten und die enthaltenen Felder skizzieren, ebenso die Systeme oder Server, auf denen die Daten gespeichert sind. Hinzukommen sollte eine umfassende Datentabelle, aus der hervorgeht, wo personenbezogene Daten gespeichert sind, welche Arten von personenbezogenen Daten verarbeitet werden, welche Arten von geschützten Daten oder anderen Daten besonderer Kategorien verarbeitet werden, welche Zwecke mit der Datenverarbeitung verfolgt werden und wo diese stattfindet beziehungsweise wo sich die entsprechenden Systeme befinden.

Eine aussagekräftige Dateninventur und -klassifizierung bilden die Grundlage für ein solides Datenschutzprogramm. Sie helfen außerdem, die Datenherkunft zu verstehen, die benötigt wird, um nachzuvollziehen, wie Daten durch die Systeme des Unternehmens fließen. Doch die Erfahrung zeigt, dass die meisten Unternehmen Daten aus zahlreichen verschiedenen Quellen haben. Dadurch fällt es ihnen schwer, die Übersicht darüber zu gewinnen und zu behalten, welche ihrer Daten an welcher Stelle erzeugt und gespeichert werden. Ein entsprechendes Tool, mit dem sich Daten automatisiert zentralisieren lassen, ermöglicht eine solche Übersicht und legt so die Basis für die Entscheidung, welche Daten gelöscht werden sollten, und welche behalten werden.

Sobald ein Unternehmen eine Übersicht über seinen Datenbestand hat, können die Rechts- und die IT- sowie Datenabteilung zusammen mit den Stakeholdern bestimmen, wie wertvoll bestimmte Daten sein können, welche regulatorischen Beschränkungen für die Speicherung dieser Daten gelten und welche potenziellen Folgen es hätte, wenn diese Daten geleakt, verletzt oder länger als nötig aufbewahrt würden.

Das heißt: Daten veralten im Laufe der Zeit, verlieren an Wert und spiegeln die heutige Welt nicht mehr wider.

Daten bestimmen, löschen oder de-identifizieren

Bei der Entscheidung, welche Daten wie lange aufbewahrt werden, empfiehlt es sich, mit den gesetzlichen Verpflichtungen zur Aufbewahrung von Finanzunterlagen sowie branchenspezifischen Vorschriften zu beginnen. Anhand der gesetzlichen Verjährungsfristen lässt sich festlegen, wie lange Daten gespeichert werden müssen, die gegebenenfalls zur Verteidigung gegen eine potenzielle Klage gebraucht werden. An personenbezogenen Daten sollten nur solche gespeichert werden, die für eine potenzielle Rechtsverteidigung notwendig sind – etwa Transaktionsprotokolle oder Nachweise der Benutzereinwilligung – und nicht alle Daten zu einzelnen Personen.

„ Der größte Fehler, den Unternehmen beim Umgang mit obsoleten Daten machen, ist es, den Prozess zu überstürzen und auf ausführliche Gespräche mit allen Verantwortlichen zu verzichten.“

Alexander Zschaler, Fivetran

Wenn Daten dann nach der festgelegten Zeit gelöscht werden sollen, kann das manuell erledigt werden auf Basis der Aufbewahrungsdauer, die in der Aufbewahrungsrichtlinie für jede Datenart definiert wurde. Ein automatisierter Prozess, der über eine Löschrichtlinie funktioniert, sorgt jedoch für mehr Effizienz und Zuverlässigkeit.

Eine andere Möglichkeit, um identifizierbare personenbezogene Daten zu entfernen oder vollständig anonymisierte Daten weiter zu nutzen, ist ein De-Identifikationsverfahren. Das bringt allerdings neue Herausforderungen mit sich: Bei der De-Identifizierung müssen nicht nur eindeutige und direkte Identifikatoren entfernt werden – etwa die Sozialversicherungsnummer und der Name – sondern auch indirekte Identifikatoren wie die IP-Adresse. Das bedeutet in der Regel, dass die verbleibenden Daten kaum noch einen Wert haben. Der Ansatz kann dennoch sinnvoll sein, um die Performance eines Analyse- oder KI-Modells aufrecht zu erhalten. Dann sollten aber die Vor- und Nachteile mit allen Stakeholdern vorher diskutiert werden.

Fehler vermeiden

Der größte Fehler, den Unternehmen beim Umgang mit obsoleten Daten machen, ist es, den Prozess zu überstürzen und auf ausführliche Gespräche mit allen Verantwortlichen zu verzichten. Das Feedback aus verschiedenen Gruppen ist essenziell, um herauszufinden, welche Daten unbedingt aufbewahrt werden müssen. Deshalb sollten Geschäftsführer und die Abteilungen für Recht, Datenschutz und Sicherheit dabei zusammenarbeiten.

Im Zweifelsfall empfiehlt es sich, eher längere als kürzere Aufbewahrungsfristen zu wählen. Denn diese lassen sich im Laufe der Zeit verkürzen, sodass weniger personenbezogene Daten gespeichert werden. Aber einmal gelöscht, sind die Daten unwiederbringlich verloren.

Um sicher durch die Feinheiten der Datenlöschung zu navigieren, müssen Unternehmen das Thema strategisch und gut informiert angehen. Nur wenn sie die rechtlichen, finanziellen und Cybersecurity-bezogenen Implikationen verstehen, können sie eine robuste Datenaufbewahrungsstrategie entwickeln, die nicht nur den Vorschriften entspricht, sondern auch ihre digitalen Assets effektiv schützt.

Über den Autor:
Alexander Zschaler ist Regional Vice President DACH, Zentral- und Osteuropa bei Fivetran.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Strategien für effektives Datenlöschen im Zeitalter der KI

Für KI braucht es Big Data. Doch veraltete Daten können zu Datenschutzverletzungen verursachen. Unternehmen sollte eine Strategie für das Löschen von Daten haben.

Obsolete Daten identifizieren

Daten bestimmen, löschen oder de-identifizieren

Fehler vermeiden

Erfahren Sie mehr über Datenverwaltung

EU-Datenschutz-Grundverordnung (EU-DSGVO)

Intelligentes Datenmanagement: Risiken und Effizienz im Griff

Mit Retrieval-augmented Generation gegen halluzinierende KI

Nur richtige Datenintegration macht generative KI erfolgreich