Best Practices für die Datenarchivierung: Richtlinien, Planung und Produkte
Datenarchivierung hört sich leicht an, erfordert in der Praxis aber sorgfältige Planung. Mit unseren Best Practices gelingt die Umsetzung am besten.
Mit einem Thema hat es fast jeder Storage-Manager regelmäßig zu tun: Irgendwie muss er einen immer weiter wachsenden Datenbestand unterbringen und speichern. Weil primäres Storage tendenziell teuer ist und begrenzte Kapazität hat, verlagern die meisten Organisationen ältere Daten in Archive. Dies hilft dabei, Platz im primären Storage wieder frei zu machen, so dass dort neue Daten gespeichert werden können.
Oberflächlich betrachtet ist das Konzept der Datenarchivierung ganz einfach. In der Praxis jedoch erweist es sich oft als Herausforderung. Deshalb ist sorgfältige Planung erforderlich, bevor die ersten Daten-Bits verschoben werden. In diesem Artikel stellen wir einige Best Practices für Daten-Archivierung vor.
Zu archivierende Daten identifizieren
Der erste Schritt besteht darin, zu bestimmen, welche Daten archiviert werden. Allgemein geht es dabei um Daten, die seit längerer Zeit nicht mehr verändert wurden, vielleicht über einige Monate. Manche Organisationen prüfen dazu auch, wann auf die Daten zum letzten Mal zugegriffen wurde.
Allerdings müssen hier noch eine Reihe weiterer Faktoren beachtet werden, etwa der Datentyp. So werden Sie für die Archivierung von Dateiserver-Daten wahrscheinlich ganz andere Richtlinien und Methoden brauchen als für SQL-Serverdaten. Denn leider gibt es keine universelle Archivierungsmethode, mit der alle Daten gleich behandelt werden könnten. Die Verlagerung von Dateien ist einfach. Meistens aber ist es nicht möglich, eine komplette Datenbank-Tabelle zu verschieben, weil irgendeine Anwendung diese noch benötigt. Stattdessen bedeutet Datenbank-Archivierung, alte Daten aus einer Tabelle in die Tabelle einer Archiv-Datenbank zu verschieben.
Regeln zum Löschen und Lebenszyklus-Management für Daten
Eine weitere Best Practice für Datenarchivierung: Sie sollten das gesamte Lebenszyklus-Management für Ihre Daten berücksichtigen. Nehmen wir zum Beispiel an, Sie haben entschieden, Daten zu archivieren, die seit drei Jahren nicht mehr verändert oder aufgerufen wurden. Sollten dann alle Daten archiviert werden, die dieses Kriterium erfüllen, oder können Sie einen Teil davon schlicht löschen? Oder: Sollen die Daten für immer in Ihren Archiven bleiben, oder können sie irgendwann daraus entfernt werden? Sie brauchen eine konkrete Planung, die genau angibt, unter welchen Umständen welche Daten archiviert werden. Sie müssen auch wissen, was später mit diesen Daten passieren soll. Viele Unternehmen gehen davon aus, dass sie mit Richtlinien zu Archivierung zugleich auch Richtlinien zur Löschung haben. Später wünschten sie dann, sie hätten genaue Regeln über Löschen und Archivieren lieber vorher festgelegt.
Auch die Erfüllung regulatorischer Vorgaben muss beachtet werden. Nicht für jede Organisation gelten besondere Regeln zur Aufbewahrung von Daten. Aber wo das der Fall ist, drohen schwere Strafen, wenn die Regeln nicht richtig beachtet werden. Multinationale Unternehmen müssen zudem daran denken, dass sie es mit unterschiedlichen gesetzlichen Rahmen zu tun haben.
Administratoren drohen bei Verstößen sowohl zivilrechtliche als auch strafrechtliche Konsequenzen. Aus diesem Grund neigen viele dazu, deutlich mehr Daten zu archivieren als gesetzlich vorgeschrieben und diese Archive für immer zu erhalten.
Das Problem bei diesem Vorgehen ist, dass es mehr Schaden anrichten als nutzen kann. Gesetze verlangen die Aufbewahrung von Daten, damit sie sich analysieren lassen, falls einer Organisation Fehlverhalten vorgeworfen wird. In diesem Zusammenhang warnen Rechtsexperten, die Unternehmen vertreten, bei denen eine elektronische Beweissicherung ansteht: Mehr Daten vorzuhalten als gesetzlich vorgeschrieben ist, kann Schwierigkeiten bringen. Denn dadurch wird es nicht nur teurer, diese Daten durchzugehen – obendrein kann dabei unnötigerweise mehr belastendes Material gefunden werden.
Archivierungsrichtlinien für lange Zeiträume definieren
Wenn Sie sich darüber im Klaren sind, welche Daten Sie archivieren wollen, folgt der nächste Schritt: die Entwicklung einer umfassenden Archivierungsrichtlinie. Dabei handelt es sich um einen formalen Satz an Verfahren, in dem die Regeln für den Archivierungsprozess festgehalten sind. Er sollte die folgenden Aspekte enthalten:
- Kriterien für Datenarchivierung – oft mit unterschiedlichen Vorgaben für jeden Datentyp
- die Mechanismen, die für den Archivierungsprozess zum Einsatz kommen
- die Art der Medien, die für die Speicherung von Archivdaten verwendet werden
- den Zeitraum, in dem Daten im Archiv bleiben; auch hier kann es je nach Datentyp Unterschiede geben
- Regeln dazu, wer auf die Archive zugreifen darf und unter welchen Umständen.
Viele Unternehmen gehen davon aus, dass sie mit Richtlinien zu Archivierung zugleich auch Richtlinien zur Löschung haben. Später wünschten sie dann, sie hätten genaue Regeln über Löschen und Archivieren lieber im Vorfeld festgelegt.
Dazu gibt es eine interessante Fallstudie. Eine Organisation plante zunächst, dass nur die IT- und Personalchefs auf ihre Archive zugreifen dürfen. Bei der Beschäftigung mit Software für Nachrichtenarchive entdeckte die Organisation dann eine Anwendung, die Endnutzern Zugriff auf archivierte Nachrichten gab. Zwar wurden diese Nachrichten gesichert und Änderungen durch die Nutzer waren nicht möglich – aber sie konnten die Inhalte ansehen und auch weiterleiten. Die Software gab Nutzern also dauerhaften Zugriff auf die Nachrichten, hielt sie aber trotzdem gesichert. Deshalb entschied die Organisation, ihre Richtlinie dahingehend zu ändern, dass Nutzer zumindest ihre eigenen alten Nachrichten sehen dürfen.
Ein weiterer wichtiger Punkt ist der Schutz der Integrität des Archivs. Er besteht aus zwei Teilaspekten: Erstens müssen die Archive gegen Manipulationen geschützt sein, so dass kein Nutzer sie verändern kann, um unkorrektes Verhalten zu vertuschen.
Zweitens geht es darum, einen Verlust der archivierten Daten zu verhindern. Stellen Sie sich vor, eine Organisation hätte alle ihre Daten aus dem Jahr 2005 in ein Band-basiertes Archiv verlagert, und dieses Band wird demagnetisiert. In diesem Fall wären sämtliche Archiv-Daten aus dem Jahr 2005 verloren. Vor solchen Verlusten müssen sich Organisationen schützen.
Dabei helfen Kopien der archivierten Daten. Manche Organisationen kopieren ihre Band-basierten Archive und bewahren ein Exemplar der Bänder vor Ort auf, während ein Duplikat sicher extern untergebracht wird. Gateways für Cloud-Storage bieten ähnliche Funktionalität: Eine Gateway-Appliance speichert ein Exemplar des Archivs vor Ort und übernimmt zugleich seine Replikation in der Cloud. Daneben gibt es Anwendungen, die Bänder auf ihren Zustand prüfen und eine Möglichkeit bieten gefährdete Daten auf einem anderen noch freien Backup-Medium zu sichern.
Welchen Ansatz Sie für den Schutz von Archivdaten wählen, hängt unter anderem davon ab, wie viel Zugriff Nutzer darauf noch brauchen. Mindestens müssen archivierte Daten auf Ebene des Storage-Volumes verschlüsselt werden. Um Manipulationen zu verhindern, müssen sie außerdem schreibgeschützt sein. Viele Organisationen speichern Archivdaten auf Storage-Servern (oder Cloud-Storage), die vom Rest der Produktiv-Netzwerks isoliert sind. Dies schafft eine weitere Sicherheitsschicht.
Unabhängig davon, auf welche Weise Sie Ihre Archive speichern, sollten sie auch durch einen Auditing-Mechanismus geschützt sein. Dadurch erhalten Sie eine Warnmeldung, wenn jemand auf die archivierten Daten zugreift (oder es versucht). Wenn jemals Zweifel daran aufkommen, können Sie mit den Audit-Logs belegen, dass die Daten authentisch sind und nicht manipuliert wurden.
Kriterien für die Archivierung: Suche, Automatisierung, Flexibilität
Auf dem Markt stehen eine Reihe von Produkten für Datenarchivierung zur Verfügung, von Backup-Anwendungen mit eingebauten Archivierungsfunktionen bis zu umfassenden Anwendungen nur für Archivmanagement. In jedem Fall sollten Sie hier auf eine Reihe von entscheidenden Funktionen achten.
Die erste davon ist die Suche. Bei elektronischer Beweisaufnahme zum Beispiel müssen meist riesige Mengen an archivierten Daten durchsucht werden. Eine effiziente Suchmaschine hilft hier dabei, den Zeitaufwand dafür zu verringern. Sie sollte flexibel genug sein, um damit feinkörnige Suchen nach den folgenden Aspekten vornehmen zu können:
- Datentyp (etwa Word-Dokument, E-Mail und mehr)
- Datenquelle (eine gute Suchmaschine sollte in der Lage sein, Suchen über mehrere Daten-Plattformen hinweg vorzunehmen. So könnte eine einzige Suche Daten von Exchange, Sharepoint und einem Dateiserver umfassen)
- Verfasser des Dokuments
- besondere Datenelemente (wie Konto-, Sozialversicherungs- oder Kreditkartennummern)
- Daten, die einer bestimmten Struktur statt einem bestimmten Inhalt entsprechen (zum Beispiel Daten, die eine Sozialversicherungsnummer enthalten statt einer konkreten Nummer dieser Art)
Ein weiteres wichtiges Feature ist eine Möglichkeit zum Erfassen von Audit-Trails, relevant bei Aufbewahrungspflichten im Fall von Rechtsstreitigkeiten und bei elektronischer Beweisaufnahme. Auf diese Weise können Sie erfahren, wer auf die Archive zugegriffen hat, wann das geschah, und welche Daten genau aufgerufen wurden.
Zudem sollten Sie ein Archivierungsprodukt wählen, das so viele Daten-Plattformen unterstützt wie möglich. Eine wirklich universelle Lösung gibt es nicht, doch mehrere der auf dem Markt erhältlichen Produkte sind auf die Zusammenarbeit mit vielen verbreiteten Anwendungen und Plattformen ausgelegt. Manche erlauben sogar die Archivierung von Daten aus sozialen Netzwerken, etwa der Inhalte auf der Facebook-Seite einer Organisation.
Ebenfalls essenziell ist eine gute Engine zur Daten-Deduplizierung. Das Wesen von Archiven bringt es mit sich, dass sie sehr umfangreich werden können. Erfreulicherweise unterstützen fast alle modernen Produkte für Archivierung auch Deduplizierung.
Nächster Punkt: Ihr Archiv-Produkt sollte hinsichtlich Datenquellen und -Zielen hinreichend flexibel sein. Denn nur weil eine Organisation für Archivierung aktuell mit Bändern arbeitet, muss sie das nicht auch morgen noch tun. Ein gutes Produkt für Archivierung sollte deshalb Speicherung auf Festplatten, Bändern, in der Cloud oder auf jeglichem anderen Medium ermöglichen.
Ebenso sollten für den Abruf von Archivdaten unterschiedliche Medien unterstützt werden. Wenn Daten aus dem Archiv extrahiert werden, sollten sie auf Bänder, DVDs oder andere Medien geschrieben werden können.
Nicht zuletzt sollte die Archivierungssoftware Möglichkeiten für Automatisierung mitbringen, denn Sie werden Daten nicht per Hand in Archive und aus ihnen heraus bewegen wollen. Ein gutes Produkt sollte sich dabei leicht an Ihre Richtlinien zur Archivierung anpassen lassen. Der Prozess der Automatisierung stellt dann sicher, dass Daten stets gemäß der Richtlinien behandelt werden und nichts davon unter den Tisch fällt. Zudem sollte die Software ein detailliertes Protokoll des Archivierungsprozesses erzeugen.
Das Konzept der Archivierung von selten genutzten Daten ist also einfach, doch seine Umsetzung in die Praxis kann einige Mühe bereiten. Wenn Sie einen klaren und gut dokumentierten Plan dafür haben, sollte Ihr Archivierungsprozess jedoch reibungsloser verlaufen.
Über den Autor: Brien Posey ist ein Microsoft MVP mit zwei Jahrzehnten IT-Erfahrung und arbeitet als freiberuflicher Autor für Technik-Themen. Zuvor war er als CIO einer US-weiten Kette von Krankenhäusern und Gesundheitszentren tätig. Eine Zeitlang hat er zudem als Netzwerk-Administrator für einige der größten Versicherungsunternehmen der USA und das US-Verteidigungsministerium in Fort Knox gearbeitet.