Wie Sie die Sicherheit eines Data Lakes gewährleisten

Ein Data Lake ist voller sensibler Informationen. Die Sicherung dieser Daten hat oberste Priorität. Hier sind die besten Methoden, um die Daten vor Hackern zu schützen.

Data Lakes sind spezielle Plattformen, in denen große Mengen strukturierter und unstrukturierter Daten aus einer Vielzahl von Quellen gespeichert werden. Analysten können mit verschiedenen Tools direkt auf die Informationen im Data Lake zugreifen oder sie als Staging Area nutzen, um die Informationen für das Laden in Data Warehouses vorzubereiten.

Wie alle Daten in Unternehmensspeichern müssen Sie auch den Datenbestand in Data Lakes vor unbefugtem Zugriff schützen.

Identifizieren und klassifizieren Sie vorhandene und eingehende Daten

Die meisten Unternehmen haben Sicherheitsklassifizierungen, die ihre Daten in verschiedene Vertraulichkeitsstufen gruppieren. Die Stufen basieren auf branchenspezifischen und gesetzlichen Sicherheitsstandards sowie auf den Auswirkungen auf das Unternehmen, wenn diese Daten ohne Autorisierung offengelegt oder geändert würden.

Diese Klassifizierungen ermöglichen es Administratoren, die entsprechenden Sicherheitsmechanismen und Verfahrenskontrollen bereitzustellen. Für die Klassifizierung müssen Unternehmen die vorhandenen Daten im Data Lake auswerten und Verfahren zur Analyse eingehender Informationen entwickeln.

Sichere Eingabe-, Ausgabe- und Arbeitsdateien

Eine häufige Redensart bei Diskussionen über Datenbanksicherheit lautet: Keine Datenbank ist eine Insel. Das gleiche Prinzip gilt für Data Lakes.

Eine gängige Taktik von Hackern ist es, Zugriff auf Eingabedateien, die man in das System lädt, Arbeitsdateien, die während der täglichen Verarbeitung verwendet werden, und Ausgabedateien zu erhalten. Zu den Ausgabedateien, die Sie sichern müssen, gehören Dateien, die zur Übertragung von Daten an andere Anwendungen verwendet werden, sowie Berichtsdateien und Data Lake Backups.

Kontoverwaltung und Zugriffsrechte

Zahlreiche Data-Lake-Plattformen stehen zur Auswahl. Amazon, Oracle, Cloudera, Microsoft und Teradata zählen zu den beliebtesten Data-Lake-Anbietern. Obwohl jede Plattform über unterschiedliche Mechanismen und Prozesse zum Erstellen von Konten und dem Zuweisen von Zugriffsrechten verfügt, sind die Best Practices für die Sicherheit von Data Lakes für jede Umgebung gleich.

Abbildung 1: Was einen Data Lake von einem Data Warehouse unterscheidet.
Abbildung 1: Was einen Data Lake von einem Data Warehouse unterscheidet.

Um Ihren Data Lake angemessen zu sichern, sollten Sie den üblichen Branchenempfehlungen folgen. Diese reichen von der Gewährung der Mindestanzahl an Sicherheitsrechten, die Benutzer für ihre Arbeit benötigen, bis hin zur Festlegung der richtigen Einstellungen für Passwortkomplexität, Ablaufdatum und Sperren.

Zwei-Faktor-Authentifizierung, Kennwort-Depots und Mechanismen für die Unternehmensauthentifizierung sollten ebenfalls verwendet werden, um die Plattform zu sichern. Die Administrationshandbücher der Data Lakes sind geeignete Ressourcen hierfür. Die meisten Handbücher enthalten detaillierte Richtlinien, mit denen Administratoren ihre Systeme schützen können.

Best Practices für den Systemschutz

Die Handbücher der Systemhersteller und der Data-Lake-Anbieter enthalten ebenfalls Informationen, mit denen Sie die Software sicher installieren und konfigurieren können. Die Standardverfahren für alle Plattformen – einschließlich Data Lakes – sind: Die Software auf dem neuesten Stand halten und Sicherheitslücken identifizieren, analysieren und beheben. Auch hier ist es wichtig, bewährte Methoden wie die ordnungsgemäße Systemkonfiguration und das Patch-Management anzuwenden.

Grundlegende Konfigurationsfehler und Fehler in Best Practices führen oft zu Sicherheitsproblemen. Laut einem Artikel bei SiliconAngle nutzen immer mehr Hacker grundlegende Fehler beim Sicherheitsmanagement, um Hadoop-Systeme – die führende Plattform für Data Lakes – zu korrumpieren.

Laufende Sicherheitsbewertungen

Regelmäßig geplante Penetrationstests, Schwachstellenscans und Audits sind auch bei Data Lakes wesentliche Elemente effektiver Sicherheitspläne.

Das gemeinsame Ziel all dieser Scans besteht darin, Sicherheitslücken zu identifizieren. Dabei ist es wichtig zu beachten, dass mit allen drei Ansätzen Schwachstellen nur für einen bestimmten Zeitpunkt identifiziert werden und Analysen deshalb regelmäßig durchgeführt werden müssen. Nur so lässt sich langfristig ein hohes Maß an Sicherheit für Data Lakes gewährleisten.

Mit Software für Penetrationstests können Sicherheitsexperten eine Reihe von Prozessen ausführen. Diese versuchen, bekannte Systemschwachstellen auszunutzen, um Zugriff auf die Zielplattform zu erhalten. Schwachstellenscanner erkennen ebenfalls bekannte Systemschwächen, versuchen jedoch nicht, diese auszunutzen, um Zugriff zu erhalten. Diese Schwachstellenscans sind weniger intrusiv und werden häufiger ausgeführt als Penetrationstests. Security-Audits schließlich überprüfen die Leistung bestehender Kontrollen und bewerten die Einhaltung der Richtlinien und Verfahren des Unternehmens.

Die Ergebnisse von Penetrationstests, Schwachstellenscans und Audits werden verwendet, um Sicherheitsprobleme zu identifizieren und die erforderlichen Korrekturmaßnahmen zu implementieren.

Weiterbildung

Zu lernen, wie Sie Ihre Umgebung schützen, ist nichts anderes, als andere Dinge zu lernen. Sie müssen sich Zeit nehmen, um verschiedene bewährte Sicherheitsmethoden zu erlernen. Es gibt eine enorme Menge an Lehrmaterial sowie Zertifizierungen auf Websites wie Udemy und Coursera. Handbücher zu Betriebssystemen und zur Produktadministration sind hervorragende Ausgangspunkte.

Erfahren Sie mehr über Big Data