michelangelus - Fotolia
So deduplizieren Sie Daten richtig
Generell ist Datendeduplizierung nützlich, da sie redundante Daten löscht. Um optimale Resultate zu erzielen, muss die Technologie allerdings richtig umgesetzt werden.
Die Datendeduplizierung hat das Potenzial, den Speicherbedarf eines Unternehmens deutlich zu reduzieren. Dennoch kann die Art und Weise, wie IT-Abteilungen Daten deduplizieren, eine wichtige Rolle bei der Effektivität spielen.
Das erste, was Sie über die Datendeduplizierung wissen müssen, ist, dass die von den Anbietern beworbenen Deduplizierungsverhältnisse – 25:1, 50:1 oder mehr – sind in der Regel optimistische Schätzungen. Es gibt keine Möglichkeit, dass ein Anbieter das Verhältnis garantieren kann, um das der Daten-Fußabdruck reduziert werden kann. Denn die Art der Daten ist der wichtigste Faktor bei der Entscheidung, wie effektiv der Anbieter Daten deduplizieren kann.
Die Deduplizierung funktioniert durch das Entfernen doppelter Daten. Wenn keine Redundanz innerhalb der Daten vorhanden ist, kann keine Deduplizierungs-Engine den Speicherbedarf der Daten reduzieren. Einige Arten von Daten, die tendenziell nicht von der Deduplizierung profitieren, sind komprimierte Mediendateien wie MPEG, JPG und so weiter, komprimierte Archivdateien wie ZIP oder CAB und wissenschaftliche Daten, die oft etwas zufällig sind.
Auch die Art und Weise, wie Systeme die Deduplizierung durchführen, kann einen Unterschied machen. Die meisten Technologien deduplizieren Daten entweder im Inline-Verfahren oder nachträglich, dem so genannten Post-Prozess-Verfahren.
Inline, Post-Prozess, oder global: Was lohnt sich wann?
Die Inline-Deduplizierung erfolgt in Echtzeit. Wenn Sie beispielsweise kontinuierlich Daten in die Cloud streamen, könnte die Inline-Deduplizierung von Vorteil sein, da sie in der Lage ist, die Daten vor der Übertragung zu verkleinern und so die erforderliche Bandbreite und Übertragungszeit zu reduzieren.
Die Deduplizierung nach dem Prozess läuft nach Zeitplan. Eine Post-Process-Deduplizierungs-Engine kann beispielsweise jede Nacht um 23.00 Uhr Daten deduplizieren.
Die Post-Prozess-Deduplizierung kann manchmal einen höheren Anteil als die Inline-Deduplizierung erreichen, hat aber ihre Nachteile. Zum einen muss das Speicher-Repository groß genug sein, um die Daten vor der Deduplizierung in ihrer unkomprimierten Form zu speichern. Möglicherweise wird auch zusätzlicher Speicherplatz benötigt, um den mit dem Deduplizierungsprozess verbundenen Aufwand zu decken. Ein weiterer Nachteil ist, dass der Postprozess in der Regel ressourcenintensiv ist, so dass Sie die Engine wahrscheinlich nicht so planen möchten, dass sie Daten während des Arbeitstages dedupliziert.
Einige Unternehmen kombinieren die Inline- und Post-Prozess-Deduplizierung zu einem Prozess namens Global Deduplication. Stellen Sie sich vor, dass mehrere verschiedene Datenquellen inline dedupliziert und auf ein gemeinsames Speicherziel geschrieben werden. Obwohl jeder Datenstrom dedupliziert wurde, besteht immer die Möglichkeit, dass es zu einer gewissen Cross-Stream-Redundanz kommt. Um diese Redundanz zu beseitigen, kann die Post-Prozess-Deduplizierung eingesetzt werden.
Die globale Deduplizierung kombiniert das Beste aus beiden Welten. Die Inline-Deduplizierungs-Engine minimiert die Datenmenge, die über das Netzwerk fließt, während die Post-Process-Deduplizierungs-Engine alle redundanten Daten entfernt, die auf der Speichervorrichtung vorhanden sein könnten.