La desduplicación de datos en el almacenamiento es una tecnología fundamental para administrar cargas de datos, ayudando a usuarios de todo tipo a conservar espacio y realizar copias de seguridad más rápido. En este artículo, analizamos la desduplicación de datos en el almacenamiento, por qué es importante, cómo funciona y los diferentes tipos de procesos de desduplicación.
¿Qué es la desduplicación de datos?
La desduplicación de datos es el proceso de eliminar las copias de datos redundantes. Es una técnica de optimización del almacenamiento de datos que libera recursos al eliminar segmentos de datos no únicos dentro de conjuntos de datos.
¿Por qué es importante la desduplicación de datos?
Con el auge de las operaciones basadas en datos y el lugar de trabajo digital, las organizaciones de todo tipo administran y usan más datos y los envían hacia y desde más puntos finales que nunca.
Con el tiempo, es inevitable que los datos duplicados y no únicos se acumulen dentro de los sistemas de almacenamiento a medida que las organizaciones realizan sus operaciones diarias. Estos datos redundantes se agravan aún más cuando tiene en cuenta la necesidad de mantener cierta redundancia intencional para la recuperación ante desastres, la alta disponibilidad y la protección de datos.
Los datos duplicados consumen espacio de almacenamiento que, de otro modo, podría reutilizarse para lidiar con los volúmenes de datos en constante aumento con los que las organizaciones modernas deben lidiar. Al eliminar estos datos duplicados, puede liberar espacio sin necesidad de comprar capacidad adicional para satisfacer las crecientes demandas de datos.
En otras palabras, la inversión en la capacidad de desduplicación de datos sólidos se traduce directamente en ahorros de almacenamiento. La desduplicación de datos es un proceso fundamental para ayudar a las organizaciones a cumplir con sus desafíos de datos de la manera más eficiente, optimizada y sensible a los costos posible.
¿Cuáles son los beneficios de la desduplicación de datos?
El beneficio más evidente es que se requiere una superficie de almacenamiento más pequeña. Esto puede ser un ahorro significativo para grandes organizaciones con enormes conjuntos de datos, pero los beneficios van más allá de los presupuestos. Con la desduplicación de datos, las copias de seguridad se pueden realizar más rápidamente, con menos recursos informáticos y de almacenamiento necesarios. Los usuarios pueden acceder a los datos más rápidamente y con menos errores que puedan surgir debido a duplicados y conflictos.
Es útil tener en cuenta que los costos de un patrimonio de datos hinchado se incurren una y otra vez con el tiempo siempre que se accede o se mueven los datos. Por el contrario, los beneficios de realizar la desduplicación una vez continuarán proporcionando beneficios en el futuro.
La desduplicación es una tecnología fundamental para que la computación funcione mejor, por lo que está incorporada en muchos sistemas y se ejecuta de forma predeterminada.
¿Cómo funciona la desduplicación?
Si bien, en esencia, la desduplicación se trata de eliminar instancias no únicas de datos en su conjunto de datos, hay algunos matices técnicos que vale la pena investigar sobre cómo funciona la desduplicación de datos bajo el capó.
Desduplicación a nivel de archivo
La desduplicación de datos a nivel de archivo implica la eliminación de archivos duplicados. El sistema garantiza que una copia de archivo solo se almacene una vez, lo que vincula otras referencias a ese primer archivo.
Un ejemplo conocido de desduplicación a nivel de archivo es el proceso de copia de seguridad de almacenamiento. La mayoría de los programas de copia de seguridad compararán, de forma predeterminada, los metadatos de los archivos de los volúmenes de origen y destino, y solo reescribirán esos archivos con un historial de modificaciones actualizado, dejando solos los otros archivos. Además, los usuarios suelen tener la opción de borrar de la ubicación de almacenamiento cualquier archivo que falte en la fuente.
En entornos de datos empresariales, se utiliza un proceso similar al importar o combinar archivos o al optimizar el almacenamiento. Los conjuntos de archivos se escanean y comparan con un índice, con archivos no únicos almacenados una vez y solo vinculados desde sus ubicaciones originales.
Como resultado, el proceso es más rápido porque el sistema está copiando menos archivos y el espacio de almacenamiento se guarda mediante la eliminación de archivos eliminados.
Desduplicación a nivel de bloque
La desduplicación también se puede realizar a nivel de bloque, por ejemplo, en una base de datos o archivo. En este caso, el sistema divide la información en segmentos de datos de un tamaño fijo llamado bloques y guarda iteraciones únicas de cada segmento. Se genera un número único para cada pieza y se almacena en un índice. Cuando se actualiza un archivo, en lugar de escribir un archivo completamente nuevo, solo se guardan los datos modificados. Como resultado, la desduplicación de bloques es más eficiente que la desduplicación de archivos.
Sin embargo, la desduplicación de bloques requiere más potencia de procesamiento y un índice más grande para realizar un seguimiento de las piezas individuales. La desduplicación de longitud variable es un método alternativo que utiliza segmentos de diferentes tamaños, que el sistema de desduplicación puede utilizar para lograr mejores relaciones de reducción de datos que con los bloques de longitud fija.
Desduplicación en línea frente a posprocesamiento
Dependiendo del caso de uso, la desduplicación se puede realizar en línea, lo que significa que los datos se introducen o importan por primera vez. Esto da como resultado una huella de almacenamiento inicial reducida, pero el procesamiento puede verse afectado por el cuello de botella. Debido a la desduplicaciones en línea consumo de potencia informática, no se recomienda usar este método con almacenamiento que se usa todos los días.
En su lugar, la desduplicación se puede realizar retroactivamente como posprocesamiento. Con este método, los datos redundantes se eliminan después de la ingesta. La ventaja de este enfoque es que las operaciones pueden ocurrir fuera del horario de atención o siempre que el usuario lo especifique. Además, el usuario puede dirigir el sistema para deduplicar archivos o datos necesarios para una carga de trabajo específica. La desduplicación posterior al procesamiento permite más flexibilidad, pero también requiere un almacenamiento de datos disponible más grande que la desduplicaciones en línea.
desduplicación de datos frente a compresión frente a aprovisionamiento delgado
La desduplicación a menudo se compara o se mezcla con la compresión y el aprovisionamiento delgado, que son otros dos métodos para reducir las cantidades de almacenamiento. Si bien la desduplicación elimina y reduce la cantidad de archivos o datos, la compresión utiliza algoritmos para reducir la cantidad de bits necesarios para registrar datos.
El aprovisionamiento delgado es una técnica para obtener recursos de almacenamiento o procesamiento de otras fuentes en una red, como otros usuarios finales. De esta manera, se maximizan los recursos existentes, se necesitan menos en total y aumenta la eficiencia.
¿Qué es la desduplicación de Veeam?
Veeam Software es un desarrollador de copias de seguridad, recuperación ante desastres y software moderno de protección de datos con sede en los EE. UU. para cargas de trabajo virtuales, nativas de la nube, SaaS, Kubernetes y físicas. Veeam Backup & Replication combina compresión con desduplicación para maximizar los ahorros de almacenamiento en su sistema.
¿Qué es la desduplicación de NTFS?
New Technology File System (NTFS) es un sistema de archivos de diario patentado desarrollado por Microsoft . La desduplicación de NTFS conserva el almacenamiento al eliminar la necesidad de almacenar copias de datos en exceso, lo que aumenta significativamente la capacidad de almacenamiento libre.
La mejor reducción de datos con Pure Storage
La desduplicación de datos es solo una pieza del rompecabezas de reducción de datos más grande. Purity Reduce no solo FlashArray ofrece un proceso de desduplicaciones en línea de alto rendimiento con un tamaño de bloque variable de 4KB-32KB, sino que también aprovecha la eliminación de patrones, la compresión en línea, la reducción profunda y la reducción de copias para ofrecer las proporciones de reducción de datos más granulares y completas que se observan en la industria del almacenamiento flash. Descubra por qué la desduplicación de datos con FlashArray de Pure Storage ® es diferente.