Comprender las ratios de deduplicación de datos en los sistemas de copia de seguridad
Las ratios de deduplicación de datos pueden resultar muy confusos. Con este artículo aprenderá a estimar una ratio de deduplicación de datos en su sistema de backup y a evaluar un producto de deduplicación.
La efectividad de la deduplicación de datos a menudo se expresa en forma de ratio de deduplicación o reducción, que expresa la relación entre la capacidad protegida y la capacidad física real ocupada. Una ratio de 10:1 significa que se protege 10 veces más
datos que el espacio físico necesario para almacenarlos, y una ratio 20:1 significa que se puede proteger 20 veces más datos. Teniendo en cuenta el incremento de los datos, la conservación, y suponiendo ratios de de deduplicación del rango de 20:1, una capacidad de almacenamiento de 2 TB podría proteger hasta 40 TB de datos de backup almacenados.
Cómo se calculan esas ratios de deduplicación de datos? La relación se calcula tomando la capacidad total de datos que hay que realizar backup (es decir, los datos que se examinarán buscando duplicados) y dividiéndola por la capacidad real utilizada (es decir, el volumen de datos deduplicado).
Qué ratio de deduplicación (dedupe) es realista?
Pero qué ratio de deduplicación de datos es realista? Según un estudio de Enterprise Strategy Group (ESG), aproximadamente un tercio de los encuestados (el 33%) que utilizan actualmente la tecnología de deduplicación de datos dijo haber conseguido una reducción de sus necesidades de capacidad inferior a 10 veces; un 48% declaró haber logrado una reducción de entre 10 y 20 veces; y un 18% declaró reducciones entre 21 veces y más de 100 veces.
En las ratios de deduplicación influyen varios factores, entre ellos:
-Las políticas de backup de datos: a mayor frecuencia de backups “completas” (a diferencia de las backups “de incrementos” o “diferenciales”), mayor potencial de deduplicación, pues habrá datos redundantes de un día para otro.
Ajustes de conservación de los datos: cuanto más tiempo se conserven los datos en disco, mayor oportunidad tendrá el motor de deduplicación de encontrar redundancias.
-Tipo de datos: algunos datos son intrínsecamente más proclives a la duplicación que otros. Es más razonable esperar ratios de deduplicación más altas si el entorno contiene fundamentalmente servidores Windows con archivos parecidos entre sí, o máquinas virtuales VMware.
-Tasa de variación: a menor ratio de variación, mayor probabilidad de encontrar datos duplicados.
-Dominio de deduplicación: cuanto más amplio es el ámbito del proceso de inspección y comparación, mayor es la probabilidad de detección de duplicados. La deduplicación local consiste en examinar la redundancia en el recurso local, mientras que la deduplicación global se refiere a inspeccionar datos de múltiples fuentes para localizar y eliminar duplicados. Por ejemplo, los backups completos de datos diarios con una tasa de variación del 1% o menos conservados durante 30 backups tienen duplicado un 99% de cada backup. Al cabo de 30 días, el ratio podría alcanzar 30:1. Si en cambio se realizaran backups mensuales y se conservaran durante un mes, entonces el ratio sólo alcanzaría 4:1.
Las ratios de deduplicación pueden llevar a confusión. Algunos proveedores expresan la reducción en forma de porcentaje de ahorro, y no en forma de ratio. Si un proveedor cita un ahorro de capacidad del 50%, es equivalente a una ratio de deduplicación de 2:1. Un ratio de 10:1 equivale a un ahorro del 90%. Eso significa que 10 TB de datos se pueden hacer backup en hasta tan sólo 1TB de capacidad física de almacenamiento. Una ratio 20:1 sólo incrementa el ahorro en un 5% (al 95%).
Cómo evaluar un producto de deduplicación
Al evaluar la deduplicación de datos, es importante que pruebe los productos del proveedor en el entorno de su propia empresa y con sus propios datos durante varios ciclos de backup, para determinar el impacto de un producto en su entorno de backup /recuperación. Al seleccionar un producto, habría que centrarse menos en las ratios de reducción como factor de decisión. Un estudio de ESG (Informe de Investigación ESG, “Tendencias del mercado de protección de datos,” enero 2008) concluyó que, como era de esperar, el costo de la solución de deduplicación era el factor citado con mayor frecuencia (los ahorros conseguidos a partir de la reducción de capacidad con frecuencia superan las objeciones financieras al despliegue de la deduplicación). Por lo demás, los resultados del estudio sugieren que la facilidad de despliegue y de utilización, así como el impacto en el rendimiento de las tareas de backup /recuperación son consideraciones importantes -- en todo caso, más que los aspectos técnicos como el ratio de deduplicación.
Información sobre la autora: Lauren Whitehouse es analista de Enterprise Strategy Group y se dedica a las tecnologías de protección de datos. Lauren tiene más de 20 años de experiencia en el sector del software, donde también ha desempeñado labores de marketing y de desarrollo de software.