Deduplikation: Zone Level schlägt Block Level

Deduplikation ist ein unverzichtbarer Bestandteil von Backup. Bei der Deduplikation auf dem Block Level gibt es allerdings Skalierungsprobleme. Zone Level ist effektiver.

von

Brien Posey

Zuletzt aktualisiert: 01 Mai 2018

Deduplikation macht Backup effektiver, weil Redundanz eliminiert wird. Wegen dieses Vorteils haben alle Anbieter von Backup-Lösungen Deduplikation in ihre Pakete eingeschnürt.

Die meisten Konzepte für Deduplikation bei Backups beruhen auf dem Konzept der Block Level, bei dem redundante Blöcke eliminiert werden. Jeder Hersteller verwendet dafür seine eigene Methode, aber allgemein gesagt prüft die Deduplikations-Engine jeden einzelnen Block und verwendet eine mathematische Formel, um einen Hash für diesen Block zu generieren. Diese Hashes werden in einer Hash-Tabelle gespeichert.

Wenn ein neuer Speicherblock auf eine Disk geschrieben wird, wird ein Hash der Daten angefertigt und dann mit den Einträgen in der Hash-Tabelle verglichen, um festzustellen, ob der Block einzigartig oder redundant ist. Wenn Redundanz festgestellt wird, wird ein Pointer zum bereits existierenden Block gesetzt.

Bei einigen Herstellern funktioniert die Hash-Tabelle besser als bei anderen und es gibt auch Unterschiede bei der Fehlervermeidung. Aber trotz aller Differenzen skaliert die Block-Level-Methode nicht gut.

Probleme mit Block-Level

Der gesamte Deduplikationsprozess beruht auf der Analyse und dem Bewegen einzelner Speicherblöcke. Diese Blöcke haben unterschiedliche Größen, im Allgemeinen zwischen vier und zehn KB. Weil jeder Block so klein ist, ist die Zahl der Blöcke selbst auf einem mittleren Speichermedium sehr groß. Die tatsächliche Zahl variiert je nach Blockgröße, Laufwerksformat und Overhead. Laut einer Schätzung könnte für ein TB Speicher über zwei Milliarden Blöcke entstehen.

Was die Hash-Tabelle angeht, ist diese zwar kleiner als die Daten selbst, wird aber ab einem gewissen Punkt unbeherrschbar. Laut ExaGrid belegt die Hash-Tabelle eine Milliarde Speicherblöcke pro zehn TB.

Eine Lösungsmöglichkeit ist ein Controller für das Frontend. Dabei handelt es sich um eine dedizierte Appliance, die den gesamten Deduplikationsprozess durchführt und dafür seinen eigenen Prozessor und Speicher nutzt.

Obwohl der Bedarf für eine solche Appliance ein Unternehmen wohl nicht davon abhalten wird, Deduplikation zu nutzen, müssen sich Administratoren doch mit der Frage auseinandersetzen, wie viele Daten den Deduplikationsprozess durchlaufen sollen.

Selbst eine dedizierte Appliance kann überfordert werden und dann muss ein aufwendiges und teures Upgrade durchgeführt werden.

Vorteil Zone Level

Deduplikation auf dem Zone Level ist eine proprietäre Methode von ExaGrid, die zwei große Vorteile bietet.

Erstens prüft die Methode Datenstücke, die erheblich größer sind als Blöcke. Dadurch wird auch die Hash-Tabelle geschrumpft. Laut ExaGrid ist die Hash-Tabelle bei Zone Level um den Faktor Tausend kleiner als bei Block Level.

Zweitens werden Scale-Out-Architekturen unterstützt. Wenn ein Controller nicht mehr ausreicht, kann einfach ein zweiter oder weitere Controller hinzugefügt werden.

Zone Level löst effektiv das Skalierungsproblem von Block Level. Obwohl es sich um eine proprietäre Technologie handelt, ist diese agnostisch ausgelegt, so dass sie grundsätzlich mit jeder Backup-Technologie zusammenarbeiten.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Welche Backup-Software ist am besten für Ihr Unternehmen geeignet?

Diesen Sicherheits-Herausforderungen müssen sich Backup-Administratoren stellen

Für was man Deduplizierungs-Arrays einsetzt

Deduplikation: Zone Level schlägt Block Level

Deduplikation ist ein unverzichtbarer Bestandteil von Backup. Bei der Deduplikation auf dem Block Level gibt es allerdings Skalierungsprobleme. Zone Level ist effektiver.

Probleme mit Block-Level

Vorteil Zone Level

Nächste Schritte

Erfahren Sie mehr über Storage Management

Exagrid: skalierbare Backup-Lösungen für Unternehmen

Datenstruktur

Blockchain: Was man für eine sichere Nutzung wissen sollte

MD5