Datenklassifizierung
Was ist Datenklassifizierung?
Die Datenklassifizierung ist ein essenzieller Prozess, der Unternehmen dabei hilft, ihre Informationen effektiv zu organisieren und zu verwalten. Durch die systematische Einteilung von Daten in verschiedene Kategorien wird nicht nur das Auffinden und Abrufen von Informationen erleichtert, sondern auch deren Sortierung und Speicherung für zukünftige Zwecke optimiert.
Ein durchdachtes Klassifizierungssystem bietet zahlreiche Vorteile für Organisationen. Es ermöglicht einen schnellen Zugriff auf kritische Daten, was besonders in Bereichen wie Risikomanagement, rechtlichen Angelegenheiten und Compliance von unschätzbarem Wert sein kann. Unternehmen können so effizienter arbeiten und gleichzeitig sicherstellen, dass sie gesetzliche Anforderungen erfüllen.
Um eine effektive Datenklassifizierung zu gewährleisten, ist es unerlässlich, klare Richtlinien und Verfahren zu etablieren. Diese sollten detailliert festlegen, welche Kategorien und Kriterien für die Klassifizierung verwendet werden. Ebenso wichtig ist die Definition der Rollen und Verantwortlichkeiten innerhalb des Unternehmens. Jeder Mitarbeiter muss wissen, wie er mit den verschiedenen Datenkategorien umzugehen hat.
Nach der Implementierung eines Klassifizierungsschemas gilt es, entsprechende Sicherheitsstandards zu definieren. Diese legen fest, wie mit jeder Datenkategorie umgegangen werden soll, um einen angemessenen Schutz zu gewährleisten. Darüber hinaus müssen Unternehmen Speicherstandards entwickeln, die den gesamten Lebenszyklus der Daten berücksichtigen – von der Erstellung über die Nutzung bis hin zur Archivierung oder Löschung.
Eine gut durchdachte Datenklassifizierung ist somit nicht nur ein Werkzeug zur besseren Organisation, sondern auch ein wichtiger Baustein für die Informationssicherheit und das Compliance-Management in Unternehmen.
Wozu dient die Datenklassifizierung?
Die systematische Klassifizierung von Daten unterstützt Unternehmen dabei, einzelne Daten zu bearbeiten, zu verfolgen und zu analysieren. Datenexperten haben oft ein bestimmtes Ziel, wenn sie Daten kategorisieren. Dieses Ziel wirkt sich auf die Vorgehensweise und die verwendeten Klassifizierungsebenen aus.
Zu den üblichen Geschäftszielen für diese Projekte gehören:
- Vertraulichkeit. Ein Klassifizierungssystem schützt hochsensible Daten, wie zum Beispiel personenbezogene Daten von Kunden, einschließlich Kreditkartennummern, Sozialversicherungsnummern und andere sensiblen Datentypen. Die Einrichtung eines Klassifizierungssystems unterstützt eine Organisation, sich auf die Anforderungen an die Vertraulichkeit und die Sicherheitsrichtlinien zu konzentrieren, wie zum Beispiel Benutzerberechtigungen und Verschlüsselung.
- Datenintegrität. Ein System, das sich auf Datenintegrität konzentriert, erfordert mehr Speicherplatz, Benutzerberechtigungen und geeignete Zugriffskanäle.
- Datenverfügbarkeit. Durch die Berücksichtigung und Gewährleistung von Informationssicherheit und -integrität wird es einfacher zu wissen, welche Daten für bestimmte Benutzer freigegeben und verfügbar gemacht werden können.
Die Bedeutung der Datenklassifizierung
Datenklassifizierung ist ein wichtiger Teil des Datenlebenszyklusmanagements (Data Lifecycle Management, DLM), der angibt, in welche Standardkategorie oder -gruppierung ein Datenobjekt gehört. Einmal sortiert, kann die Datenklassifizierung dazu beitragen, dass ein Unternehmen seine eigenen Datenhandhabungsrichtlinien und die lokalen sowie staatlichen Compliance-Vorschriften einhält. Unternehmen in stark regulierten Branchen implementieren häufig Datenklassifizierungsprozesse oder -Workflows, um die Prüfung der Einhaltung von Vorschriften und die Datenermittlung (Discovery) zu unterstützen.
Datenklassifizierung wird in der Regel zur Kategorisierung strukturierter Daten verwendet, ist aber besonders wichtig, um unstrukturierte Daten optimal zu nutzen. Unstrukturierten Daten fehlt es an eindeutigen Bezeichnungen, so dass die Klassifizierung diese Daten besser nutzbar und einfacher zu durchsuchen oder abzufragen macht. Die Datenkategorisierung hilft auch dabei, doppelte Kopien von Daten zu identifizieren. Die Beseitigung redundanter Daten trägt zur effizienten Nutzung des Speichers bei und maximiert die Datensicherheitsmaßnahmen.
VIDEO
<div class="youtube-iframe-container"><iframe id="ytplayer-0" src="https://www.youtube.com/embed/7EA5Dk2LWXk?si=dzRVkI9IPpoz6VzN?autoplay=0&modestbranding=1&rel=0&widget_referrer=https://www.techtarget.com/searchdatamanagement/definition/data-classification&enablejsapi=1&origin=https://www.techtarget.com" type="text/html" height="360" width="640" frameborder="0"></iframe></div>
Generelle Methoden der Datenklassifizierung
Nicht alle Daten müssen klassifiziert werden. In manchen Fällen ist es ratsam, die Daten zu vernichten. Ein wichtiger Teil des Prozesses ist es, zu verstehen, warum die Daten klassifiziert werden müssen.
Zu den Schritten, die bei der Entwicklung umfassender Richtlinien zur Datenklassifizierung zu beachten sind, gehören:
- Sammeln von Informationen. Zu Beginn eines Datenklassifizierungsprojekts müssen Unternehmen die Daten, die klassifiziert oder neu klassifiziert werden müssen, identifizieren und prüfen. Es ist wichtig zu wissen, wo sich die Daten befinden, wie wertvoll sie sind, wie viele Kopien es gibt und wer Zugriff auf sie hat.
- Entwickeln Sie ein Framework. Datenwissenschaftler und andere Beteiligte arbeiten zusammen, um ein Framework zu entwickeln, innerhalb dessen die Daten organisiert werden können. Sie ordnen den Informationen Metadaten oder andere Tags zu. Dieser Ansatz ermöglicht es Maschinen und Software, Daten sofort in verschiedene Gruppen und Kategorien zu sortieren. Alles, vom Dateityp über Zeicheneinheiten bis hin zur Größe der Datenpakete, kann verwendet werden, um die Informationen in durchsuchbare und sortierbare Kategorien einzuteilen.
- Standards anwenden. Unternehmen müssen sicherstellen, dass ihre Datenklassifizierungsstrategie mit ihren internen Data-Protection- und Bearbeitungspraktiken übereinstimmt und Branchenstandards und Kundenerwartungen widerspiegelt. Die unbefugte Offenlegung sensibler Informationen kann einen Verstoß gegen das Protokoll und in einigen Ländern rechtliche Konsequenzen nach sich ziehen. Zur Durchsetzung geeigneter Protokolle und zum Schutz vor Datenschutzverletzungen müssen die geschützten Daten entsprechend ihrer Sensibilität kategorisiert und sortiert werden.
- Daten verarbeiten. Dieser Schritt erfordert eine Bestandsaufnahme der Datenbank und die Identifizierung und Sortierung der Daten entsprechend dem festgelegten Framework.
Typen der Datenklassifizierung
Zu den Standardkategorien der Datenklassifizierung gehören:
- Öffentliche Informationen. Daten in dieser Kategorie werden in der Regel von staatlichen Institutionen verwaltet und unterliegen der Offenlegung öffentlicher Daten im Rahmen bestimmter Gesetze.
- Vertrauliche Informationen. Der Umgang mit diesen Daten unterliegt möglicherweise gesetzlichen Beschränkungen oder hat andere Konsequenzen, die sich aus dem Umgang mit vertraulichen Daten ergeben.
- Sensible Informationen. Bei diesen Daten handelt es sich um alle Informationen, die von staatlichen oder anderen Institutionen gespeichert oder verarbeitet werden und für die Genehmigungsanforderungen und andere Regeln für ihre Verwendung gelten.
- Personenbezogene Daten. Im Allgemeinen sind personenbezogene Daten gesetzlich geschützt und müssen nach bestimmten Protokollen behandelt werden. Manchmal gibt es Lücken zwischen den moralischen Anforderungen und den aktuellen gesetzlichen Schutzmaßnahmen für ihre Verwendung.
Beispiele der Datenklassifizierung
Auf die Informationen in einem System kann eine Reihe verschiedener Kategorielisten angewendet werden. Diese Qualifikationslisten werden auch als Datenklassifizierungsschema bezeichnet. Eine Möglichkeit zur Klassifizierung von Sensibilitätskategorien sind zum Beispiel Klassen wie geheim, vertraulich, nur für den Geschäftsgebrauch und öffentlich.
Eine Organisation kann auch ein System verwenden, das Informationen auf der Grundlage der Art der Qualitäten klassifiziert, die es aufschlüsselt. Es kann die Art der Inhaltsinformationen, die in Dateien enthalten sind, auf bestimmte Merkmale hin untersuchen. Bei der kontextbasierten Klassifizierung werden zum Beispiel Anwendungen, Benutzer, geografische Lage und Erstellerinformationen untersucht. Die Benutzerklassifizierung basiert darauf, was ein Endbenutzer erstellt, bearbeitet und überprüft.
Datenklassifizierung und Daten-Parsing
In der Computerprogrammierung ist das Parsen von Dateien eine Methode zur Aufteilung von Datenpaketen in kleinere Teilpakete, die leichter zu verschieben, zu bearbeiten, zu kategorisieren und zu sortieren sind. Verschiedene Parsing-Stile bestimmen, wie ein System Informationen aufnimmt. Datumsangaben werden zum Beispiel nach Tag, Monat oder Jahr aufgeteilt, und Wörter können durch Leerzeichen getrennt werden.
Zu den Standardansätzen für die Datenklassifizierung durch Parsing gehören die folgenden:
- Manuelle Intervalle. Bei manuellen Intervallen geht eine Person den gesamten Datensatz durch und gibt Klassenunterbrechungen ein, indem sie beobachtet, wo sie am sinnvollsten sind. Dieses System eignet sich gut für kleinere Datensätze, kann sich aber bei größeren Informationssammlungen als problematisch erweisen.
- Definierte Intervalle. Definierte Intervalle geben eine Anzahl von Zeichen an, die in ein Paket aufgenommen werden. Beispielsweise könnten die Informationen alle drei Einheiten in kleinere Pakete aufgeteilt werden.
- Gleiche Intervalle. Gleiche Intervalle unterteilen einen Datensatz in eine bestimmte Anzahl von Gruppen, wobei die Datenmenge gleichmäßig auf die Gruppen verteilt wird.
- Quantile. Bei der Verwendung von Quantilen wird eine Anzahl von Datenwerten festgelegt, die pro Klassentyp zulässig sind.
- Natürliche Brüche. Ein Programm stellt fest, wo große Veränderungen in den Daten von selbst auftreten, und verwendet diese Indikatoren, um zu bestimmen, wo die Daten unterteilt werden sollen.
- Geometrische Intervalle. Bei geometrischen Intervallen ist für jede Klassenart die gleiche Anzahl von Einheiten zulässig.
- Intervalle mit Standardabweichung. Die Standardabweichung eines Dateneintrags wird dadurch bestimmt, wie stark seine Attribute von der Norm abweichen. Es gibt festgelegte Zahlenwerte, um die Abweichungen der einzelnen Einträge anzuzeigen.
- Benutzerdefinierte Bereiche. Benutzer können benutzerdefinierte Bereiche erstellen und festlegen. Sie können sie jederzeit ändern.
Tools für die Datenklassifizierung
Für die Datenklassifizierung werden verschiedene Tools verwendet, darunter Datenbanken, Datenverwaltungssysteme und Business-Intelligence-Software. Einige Beispiele für BI-Software-Tools, die die Datenklassifizierung vereinfachen, sind Databox, Google Looker Studio und SAP Lumira.
Entwickler und Data Scientists verwenden diese Tools, um bestimmte Arten von Daten abzurufen und Klassifizierungsaufgaben schneller zu erledigen. Andere Methoden können bei der Anwendung der Datenklassifizierung helfen. Ein regulärer Ausdruck ist beispielsweise eine Gleichung, mit der Daten, die in eine bestimmte Kategorie passen, schnell gefunden werden können, so dass es einfacher ist, alle Informationen zu kategorisieren, die unter diese bestimmten Parameter fallen.
Vorteile der Datenklassifizierung
Datenklassifizierungsmethoden sind für ein Unternehmen aus mehreren Gründen nützlich:
- Sicherheit und Vertraulichkeit. Die Verwendung von Datenklassifizierungen hilft Unternehmen, die Sicherheit, Vertraulichkeit und Integrität ihrer Daten zu wahren. Auf Daten, die als besonders sensibel eingestuft sind, werden strengere Sicherheitsmaßnahmen angewandt.
- Kostenreduzierung. Die Klassifizierung hilft Unternehmen auch, steigende Kosten für die Datenspeicherung zu vermeiden. Die Speicherung übermäßiger, ungeordneter Datenmengen, auf die in ihrem ursprünglichen Zustand nicht zugegriffen werden kann, ist teuer und kann zu einer Belastung werden.
- Compliance. Verschiedene bundesstaatliche, staatliche und lokale Compliance-Standards können leichter eingehalten werden, wenn die Daten nach Sensibilitätsstufen geordnet sind.
- Einfacher Zugang. Daten, die sich auf ein bestimmtes Szenario beziehen, können leichter gefunden und abgefragt werden, wenn sie mit Etiketten versehen sind, die ihren Inhalt oder ihre Metadaten widerspiegeln.
Wie hilft die Datenklassifizierung bei Compliance und Security?
Eine hinreichend genaue Datenklassifizierung stellt sicher, dass ein Unternehmen genau weiß, welche Datensätze öffentlich, vertraulich oder sensibel sind und warum. Durch die Klassifizierung kann ein Unternehmen die richtigen Sicherheits-Tools wie Verschlüsselung, Zugriffskontrollen oder Data Loss Prevention (DLP) einsetzen, um sicherzustellen, dass eingeschränkte Daten nicht für die falschen Zielgruppen zugänglich sind und nicht manipuliert werden können. Darüber hinaus gewährleistet die Klassifizierung eine Dokumentation der Datennutzung.
Insbesondere bei unstrukturierten Daten macht die Datenklassifizierung sie weniger anfällig für Verstöße. So wird beispielsweise von Händlern und anderen Unternehmen, die Kreditkarten akzeptieren, erwartet, dass sie die Datenklassifizierung und andere Datensicherheitsstandards der Payment Card Industry einhalten. PCI DSS ist eine Reihe von 12 Sicherheitsanforderungen zum Schutz der Finanzdaten von Kunden.
Datenklassifizierung und die DSGVO
Die Europäische Union (EU) hat im Jahr 2016 die Allgemeine Datenschutzverordnung (DSGVO) verabschiedet. Die DSGVO ist eine Reihe internationaler Richtlinien, die dazu beitragen sollen, dass Unternehmen und Institutionen mit vertraulichen und sensiblen Daten sorgfältig und respektvoll umgehen. Die Verordnung ist Anfang 2018 in Kraft getreten. Sie besteht aus sieben Leitprinzipien: Fairness, begrenzter Umfang, Datenminimierung, Genauigkeit, Speicherbegrenzung, Rechte und Integrität. Die DSGVO sieht strenge Strafen für die Nichteinhaltung dieser Standards vor.
Die Implementierung einer methodischen Datenklassifizierung ist eine Notwendigkeit, um die vielen Teile der EU-DSGVO zu erfüllen. Sie verlangt von Unternehmen, dass sie den Daten bestimmte Sicherheitskontrollstufen zuweisen, um eine unbefugte Offenlegung zu verhindern. Die Klassifizierung von Daten hilft den Datensicherheitsteams, Daten zu identifizieren, die anonymisiert oder verschlüsselt werden müssen.
Ein weiterer Aspekt der DSGVO, der eine effektive Datenklassifizierung erfordert, ist das Recht des Einzelnen auf Zugang, Änderung und Löschung der personenbezogenen Daten. Die Datenklassifizierung ermöglicht es Unternehmen, solche Daten schnell abzurufen und die spezifischen Anforderungen einer Person zu erfüllen.
Was ist die Neuklassifizierung von Daten?
Um Datenklassifizierungssysteme so effizient wie möglich zu halten, ist es für eine Organisation wichtig, die von ihr verwendeten Klassifizierungssysteme kontinuierlich zu aktualisieren. Es kann notwendig sein, die Werte, Bereiche und Ausgaben dieser Systeme neu zuzuordnen, um die sich entwickelnden Klassifizierungsziele des Unternehmens besser zu erfüllen. Es gibt eine Reihe von Gründen, warum ein Unternehmen eine Neuklassifizierung vornehmen muss, zum Beispiel um die Genauigkeit zu gewährleisten, Risiken zu mindern, Sicherheits- und Cybersecurity-Bedenken zu berücksichtigen und die lokalen, staatlichen und bundesstaatlichen Vorschriften einzuhalten.
Die Implementierung einer Richtlinie zur Kodifizierung regelmäßiger Überprüfungen der Datenklassifizierung ist eine gute Strategie, um dies zu erreichen. Mitarbeiter oder Manager, die mit der Datenverantwortung betraut sind, können mit Sicherheits- und Compliance-Beauftragten zusammenarbeiten, um eine solche Richtlinie zu entwickeln und durchzusetzen. Sie sollte sowohl interne Änderungen als auch sich entwickelnde Compliance-Standards berücksichtigen, die eine Neuklassifizierung von Daten rechtfertigen würden. Außerdem sollte sie bei Bedarf neue Datenkategorien einführen.