Vasily Merkushev - stock.adobe.c

Bewährte Verfahren für die Datenklassifizierung

Datenanalysen erfassen eine Vielzahl von Datenkategorien, die eine effiziente Datenorganisation erfordern. Diese Best Practices tragen zu deren Optimierung bei.

Das Konzept klassifizierter Daten im Zusammenhang mit Sicherheitsbehörden ist bekannt. Doch für Unternehmen gibt es eine umfassendere Art der Datenklassifizierung, die für den Erfolg ihres Datenmanagements von Bedeutung ist.

Es gibt eine Hierarchie von Datenklassifizierungsebenen, die je nach Sensibilität bestimmen, wer auf welche Daten zugreifen darf. Einige Klassifizierungen sind gesetzlich vorgeschrieben, zum Beispiel beim Umgang mit personenbezogenen Daten.

Unabhängig von den rechtlichen und sicherheitstechnischen Aspekten gibt es viele Gründe, warum ein Unternehmen eine Datentaxonomie erstellen möchte. In diesem Artikel werden die verschiedenen Arten von Datenkategorien erörtert, wobei der Schwerpunkt auf bewährten Verfahren und der Automatisierung dieses Prozesses liegt.

Datenkategorien

In der Regel werden Unternehmensdaten in folgende Kategorien eingeteilt: öffentlich, intern, eingeschränkt und vertraulich.

Interne Daten stehen internen Mitarbeitern mit entsprechendem Zugriff zur Verfügung. Dazu gehören interne E-Mails und Mitteilungen, Mitarbeiterlisten oder interne Berichte (zum Beispiel Finanz-, Verkaufs- und Lieferantenliste).

Zu den vertraulichen Daten gehören Fusions- und Akquisitionsdokumente, Informationen, die durch Geheimhaltungsvereinbarungen geschützt sind, und sensible personenbezogene Daten, die durch Gesetze (zum Beispiel Datenschutzgesetze und EU-DSGVO) geschützt sind, wie zum Beispiel persönliche medizinische oder finanzielle Daten, Sozialversicherungsnummern und persönliche Adressen.

Daten mit eingeschränktem Zugriff sind für das Unternehmen überlebenswichtig – undichte Stellen oder ein unzureichender Schutz könnten zu Strafanzeigen führen.

Welcher Status bestimmten Daten zugewiesen wird, hängt vom Kontext (unter anderem Metadaten, Quelle, Format und Zeitstempel) und vom Inhalt ab. Zu den Formaten gehören Excel, Video, PDF und Rohtext. Unternehmen können eingeschränkte Daten nach ordnungsgemäßer Verschlüsselung mit ausgewählten Mitarbeitern teilen. Während die Originaldaten eingeschränkt sind, ist die verschlüsselte Version intern.

So enthalten beispielsweise Kreditkartentransaktionen den Standort des Benutzers und des Händlers, die Händlerkategorie, das Datum, den gekauften Artikel, die Artikelkategorie, den Kartenaussteller (die Bank), den Betrag, die Art der Transaktion (online oder an der Verkaufsstelle) und den Status (fehlgeschlagen oder akzeptiert). Die Namen der Karteninhaber sind jedoch nicht enthalten und die Kreditkartennummern verschlüsselt.

Häufig beziehen sich die Datenkategorien auf bestimmte Felder und nicht auf die Daten als Ganzes. Dies hängt auch vom Grad der Aggregation ab. Zusammenfassungen können oder müssen öffentlich sein, wie zum Beispiel vierteljährliche Börsenberichte, die an Analysten geschickt werden, während granulare Daten (vollständige Liste der Kunden, geordnet nach Umsatzvolumen mit Kontaktinformationen und Kaufhistorie) intern oder eingeschränkt sind.

Wenn sie eingeschränkt sind, wollen Regierungs- und Finanzbehörden oder ein potenzieller Erwerber dennoch unter Umständen auf einen Teil der Daten zugreifen. Unternehmen sollten sich damit befassen, lange bevor ein rechtliches Problem auftritt.

Wie man die Datenkategorisierung automatisiert

Datenkategorisierung wurde traditionell manuell durchgeführt, in der Regel von den IT-, Finanz- oder Rechtsabteilungen. Angesichts der zunehmenden Menge an Dokumenten, die gespeichert werden müssen, sind moderne Ansätze jedoch zumindest bis zu einem gewissen Grad automatisiert.

Eine Möglichkeit besteht darin, sensible Felder wie E-Mail-Adressen, Kreditkarten- oder Sozialversicherungsnummern und Geburtsdaten automatisch zu erkennen, insbesondere wenn ein Dokument viele dieser Elemente enthält. Anwendungen, welche die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ermöglichen, können Dokumente kategorisieren, das heißt unstrukturierte Daten strukturieren, um einem Dokument automatisch eine bestimmte Bezeichnung zuzuweisen.

Dies ist ein überwachtes Klassifizierungsproblem. Die Methode verwendet Trainings- und Validierungssätze. Techniken wie Ensemblemethoden (zum Beispiel XGBoost) sind besonders effizient. Naive Bayes ist ein grundlegender Algorithmus, der in diesem Zusammenhang routinemäßig und in der Regel mit guter Leistung eingesetzt wird. Er wurde erstmals zur Erkennung von Spam in E-Mail-Daten eingesetzt.

Es gibt auch eine einfache Ensemblemethode, die zum Beispiel bei der Erkennung von Betrug und von gut funktionierenden Artikeln eingesetzt wird.

Der erste Schritt besteht darin, eine Liste aller Attribute zu erstellen, die einem Dokument zugeordnet sind. Sie sind die Merkmale in einem NLP-Algorithmus zur Klassifizierung der Dokumente. Zu diesen Attributen gehören der Typ (zum Beispiel PDF oder Excel), der Autor des Dokuments (zum Beispiel Berufsbezeichnung, Unternehmen oder Organisation und E-Mail-Adresse), die Quelle, das Eingangs- oder Erstellungsdatum und die letzte Aktualisierung, der ursprüngliche Empfänger, die Größe des Dokuments und das Vorhandensein bestimmter Schlüsselwörter im Text oder in der Betreffzeile.

Es ist eine gute Strategie, einen Algorithmus mit Parametern zu verwenden, die falsch-negative Ergebnisse oder fälschlicherweise als öffentlich eingestufte Dokumente minimieren. Dokumente, die von einem Blackbox-Algorithmus als nicht-öffentlich eingestuft wurden, können manuell überprüft werden, um falsch-positive Ergebnisse auszuschließen.

Zusätzliche Tipps

Es ist auch wichtig, die Liste der Personen, die auf bestimmte Daten zugreifen dürfen, je nach Kategorie ständig zu aktualisieren.

In einer früheren Position habe ich beispielsweise ein Perl-Skript gegen Live-Datenbanken – einschließlich persönlicher Daten – laufen lassen, um Zusammenfassungen zu erstellen, Trends aufzuzeigen und Vorhersagen zu treffen. Als das Unternehmen übernommen wurde, hielt mich das kaufende Unternehmen für einen Hacker (das Problem wurde durch die Tatsache verschärft, dass ich an einem anderen Ort arbeitete).

Zu keinem Zeitpunkt änderte das Unternehmen die Zugriffsrechte, und ich wurde nie aufgefordert, diese Skripte nicht mehr auszuführen oder nicht mehr auf die Live-Datenbanken zuzugreifen. Wahrscheinlich wussten sie nicht, dass dies vor der Übernahme Teil der Arbeit war. Außerdem hat das übernehmende Unternehmen die Passwörter nie geändert.

Das Problem wurde schnell gelöst, aber es erinnert einen an alle erforderlichen Vorsichtsmaßnahmen, insbesondere bei Fusionen und Übernahmen. Die Situation hätte schlimmer sein können: Stellen Sie sich vor, jemand hätte sich in meinen Computer gehackt und auf die Live-Datenbank zugegriffen, um große Datenmengen zu extrahieren.

Datenkategorisierung sollte in jedem Unternehmen, das mit sensiblen Daten arbeitet, eine wichtige Komponente sein. Sie ist nicht teuer und kann durch Automatisierung oder einen hybriden Ansatz unter Verwendung von Techniken oder Produkten zur Verarbeitung natürlicher Sprache durchgeführt werden.

Sie kann die Rechtsabteilung oder das IT-Team von einigen mühsamen Arbeiten befreien. Die Risiken, die sich aus der Nichtbeachtung von Best Practices zur Datenklassifizierung ergeben, sind nicht unerheblich – sie können zu Sicherheitsproblemen, Datenverlust, -diebstahl oder -veränderung und potenziellen Rechtsstreitigkeiten führen.

Erfahren Sie mehr über Datenverwaltung