Definition

Datendeduplizierungsverhältnis

Das Datendeduplizierungsverhältnis (engl. data deduplication ratio) ist das Verhältnis zwischen der Originalgröße einer Datei und der Größe nach abgeschlossener Deduplizierung.

Datendeduplizierung (oft auch als „intelligente Kompression“ oder „Single-Instance-Storage“ bezeichnet) ist eine Methode, die nötige Speicherkapazität durch Beseitigung von Redundanzen zu verringern. Nur eine einmalige Instanz der Daten wird tatsächlich auf dem Storage-Medium, etwa Disk oder Tape, gehalten. Redundante Daten werden durch einen Zeiger auf die einzige Datenkopie ersetzt. 

In der Praxis wird Daten-Deduplizierung oft zusammen mit anderen Formen der Datenreduktion wie konventioneller Komprimierung und Delta-Differenzierung genutzt. Alle gemeinsam können diese drei Techniken die Nutzung von Speicherraum sehr effektiv optimieren.

Daten-Deduplizierung setzt im Allgemeinen auf der File- oder Blockebene an. Die Deduplizierung von Files beseitigt doppelte Files (wie im obigen Beispiel), ist aber bei der Deduplizierung nicht sehr effizient. Block-Deduplizierung betrachtet auch die Inhalte der Dateien und speichert einmalige Werte für jeden Block. 

Die Herstellerangaben zum Datendeduplizierungsverhältnis beziehen sich oft auf das bestmögliche Szenario. Da sich die Datendeduplizierung in erster Linie auf redundante Daten bezieht, kann kein Vorteil erzielt werden, wenn keine redundanten Daten vorhanden sind. Einige Datentypen, wie Bilder im JPEG Format oder Videos im MPEG Format, sind bereits komprimiert und enthalten nur geringe Redundanz.

Wenn sich das Datendeduplizierungsverhältnis erhöht, wird der tatsächliche Effekt geringer. Wenn beispielsweise ein Datendeduplizierungsverhältnis von 1 zu 100 erzielt wird, werden 99 Prozent erzielt. Wird das Datendeduplizierungsverhältnis auf 1 zu 500 erhöht, ist die Auswirkung geringer als die rechnerisch erzielten 99,8 Prozent, weil die meisten Redundanzen bereits entfernt wurden.

Verschiedene Faktoren beeinflussen das Datendeduplizierungsverhältnis. Als erstes ist hier die Aufbewahrungsfrist, denn je länger Daten vorgehalten werden, desto mehr Redundanzen wird es geben. Als zweites fallen die Datentypen ins Gewicht, denn in einer Windows-Umgebung wird ein höheres Datendeduplizierungsverhältnis anfallen.

Drittens wirken sich häufig ändernde Daten negativ auf das Datendeduplizierungsverhältnis aus. Der vierte Faktor ist die Standortverteilung. Je mehr Standorte einbezogen werden, desto höher ist die Wahrscheinlichkeit, Redundanzen anzutreffen.

In virtuellen Umgebungen ist das Datendeduplizierungsverhältnis oft sehr hoch, weil viele virtuelle Maschinen redundante Inhalte haben. Im Gegenzug gibt dazu gibt es bei strukturierten Datenbanken nur ein geringes Datendeduplizierungsverhältnis.   

 Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Diese Definition wurde zuletzt im Dezember 2016 aktualisiert

Nächste Schritte

Mit Deduplizierung Backup-Daten erfolgreich, effizient und sicher speichern

Backup-Optionen: Deduplizierungs-Arrays, Backup-Appliances oder doch die Cloud?

Backup-Deduplizierung beschleunigen

Backup: Deduplizierung und die Auswirkungen auf das Management langlebiger Daten

Erfahren Sie mehr über Storage Management