Skip to Content

¿Qué es la deduplicación de datos?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

La deduplicación de datos en el almacenamiento es una tecnología fundamental para gestionar las cargas de datos, lo que ayuda a los usuarios de todo tipo a ahorrar espacio y realizar copias de seguridad más rápidamente. En este artículo, analizamos la deduplicación de datos en el almacenamiento, por qué es importante, cómo funciona y los diferentes tipos de procesos de deduplicación.  

¿Qué es la deduplicación de datos?

La deduplicación de datos es el proceso de eliminar las copias de datos redundantes. Es una técnica de optimización del almacenamiento de datos que libera recursos al eliminar segmentos de datos no únicos dentro de los conjuntos de datos.  

¿Por qué es importante la deduplicación de datos?

Con el auge de las operaciones basadas en datos y el lugar de trabajo digital, organizaciones de todo tipo gestionan y utilizan más datos y los envían a y desde más terminales que nunca. 

Con el tiempo, es inevitable que los datos duplicados y no únicos se acumulen en los sistemas de almacenamiento a medida que las organizaciones realizan sus operaciones diarias. Estos datos redundantes se agravan aún más cuando se tiene en cuenta la necesidad de mantener cierta redundancia intencionada para la recuperación de desastres, la alta disponibilidad y la protección de datos. 

Los datos duplicados consumen un espacio de almacenamiento que, de otro modo, podría reutilizarse para hacer frente a los volúmenes de datos cada vez mayores que las organizaciones modernas deben afrontar. Al eliminar estos datos duplicados, puede liberar espacio sin necesidad de comprar capacidad adicional para satisfacer las crecientes demandas de datos. 

En otras palabras, la inversión en una capacidad de deduplicación de datos sólida se traduce directamente en ahorros de almacenamiento. La deduplicación de datos es un proceso fundamental para ayudar a las organizaciones a hacer frente a sus retos de datos de la manera más eficiente, optimizada y sensible a los costes posible.

¿Cuáles son los beneficios de la deduplicación de datos?

La ventaja más evidente es que se necesita un espacio de almacenamiento más pequeño. Esto puede suponer un ahorro importante para las grandes organizaciones con grandes conjuntos de datos, pero los beneficios van más allá de los presupuestos. Con la deduplicación de datos, las copias de seguridad pueden realizarse más rápidamente, con menos recursos de computación y almacenamiento necesarios. Los usuarios pueden acceder a los datos más rápidamente y con menos errores que pueden surgir debido a duplicados y conflictos.

Es útil tener en cuenta que los costes de un parque de datos hinchado se contraen una y otra vez con el tiempo cuando se accede o se mueven los datos. Por el contrario, los beneficios de realizar una sola deduplicación seguirán proporcionando beneficios en el futuro. 

La deduplicación es una tecnología fundamental para hacer que la computación funcione mejor, por lo que está integrada en muchos sistemas y funciona de manera predeterminada. 

¿Cómo funciona la deduplicación?

Si bien, en esencia, la deduplicación consiste en eliminar instancias no únicas de datos en su conjunto de datos, hay algunos matices técnicos que vale la pena investigar sobre cómo funciona la deduplicación de datos bajo el capó.

Desduplicación a nivel de archivo

La deduplicación de datos a nivel de archivo implica la eliminación de archivos duplicados. El sistema garantiza que una copia de archivo solo se almacene una vez, vinculando otras referencias a ese primer archivo.  

Un ejemplo familiar de deduplicación a nivel de archivo es el proceso de copia de seguridad del almacenamiento. La mayoría de los programas de copia de seguridad compararán de manera predeterminada los metadatos de los archivos de los volúmenes de origen y de destino y solo reescribirán esos archivos con un historial de modificaciones actualizado, dejando los otros archivos solos. Además, los usuarios suelen tener la opción de borrar de la ubicación de almacenamiento cualquier archivo que falte en la fuente. 

En los entornos de datos empresariales, se utiliza un proceso similar al importar o fusionar archivos o al optimizar el almacenamiento. Los conjuntos de archivos se escanean y comparan con un índice, con archivos no únicos almacenados una vez y solo vinculados desde sus ubicaciones originales.

Como resultado, el proceso es más rápido porque el sistema copia menos archivos y se ahorra espacio de almacenamiento al eliminar los archivos borrados. 

Desduplicación a nivel de bloque

La deduplicación también puede realizarse a nivel de bloque, por ejemplo, en una base de datos o archivo. En este caso, el sistema divide la información en segmentos de datos de un tamaño fijo llamados bloques y guarda iteraciones únicas de cada segmento. Se genera un número único para cada pieza y se almacena en un índice. Cuando se actualiza un archivo, en lugar de escribir un archivo totalmente nuevo, solo se guardan los datos modificados. Como resultado, la deduplicación de bloques es más eficiente que la deduplicación de archivos. 

Sin embargo, la deduplicación de bloques requiere más potencia de procesamiento y requiere un índice más grande para realizar un seguimiento de las piezas individuales. La deduplicación de longitud variable es un método alternativo que utiliza segmentos de diferentes tamaños, que el sistema de deduplicación puede usar para lograr unas mejores ratios de reducción de datos que con los bloques de longitud fija. 

Desduplicación en línea frente a posprocesamiento

Dependiendo del caso de uso, la deduplicación puede realizarse en línea, lo que significa que los datos se introducen o importan por primera vez. Esto reduce el espacio de almacenamiento inicial, pero el procesamiento puede quedar atascado. Debido al posible agotamiento de la deduplicación en línea de la potencia informática, no se recomienda usar este método con un almacenamiento que esté en uso diario. 

En lugar de ello, la deduplicación puede realizarse retroactivamente como posprocesamiento. Con este método, los datos redundantes se eliminan después de la ingestión. La ventaja de este enfoque es que las operaciones pueden producirse fuera del horario laboral o cuando el usuario lo especifique. Además, el usuario puede indicar al sistema que deduplica los archivos o los datos necesarios para una carga de trabajo específica. La deduplicación tras el procesamiento permite una mayor flexibilidad, pero también requiere un almacenamiento de datos más grande disponible que la deduplicación en línea.

Desduplicación de datos frente a compresión frente a aprovisionamiento fino

La deduplicación suele compararse o mezclarse con la compresión y el aprovisionamiento fino, que son otros dos métodos para reducir las cantidades de almacenamiento. Si bien la deduplicación elimina y reduce el número de archivos o la cantidad de datos, la compresión utiliza algoritmos para reducir el número de bits necesarios para registrar los datos. 

El aprovisionamiento fino es una técnica de aprovisionamiento de recursos de almacenamiento o computación de otras fuentes de una red, como otros usuarios finales. De esta manera, se maximizan los recursos existentes, se necesitan menos en total y se aumenta la eficiencia.

¿Qué es la deduplicación Veeam?

Veeam Software es un desarrollador de software de copia de seguridad, recuperación de desastres y protección de datos moderno, con sede en los Estados Unidos, para cargas de trabajo virtuales, nativas de la nube, SaaS, Kubernetes y físicas. Veeam Backup & Replication combina la compresión con la deduplicación para maximizar el ahorro de almacenamiento en todo su sistema. 

¿Qué es la deduplicación de NTFS?

El nuevo Sistema de Archivos Tecnológicos (NTFS) es un sistema de archivos de diario patentado desarrollado por Microsoft . La deduplicación de NTFS conserva el almacenamiento al eliminar la necesidad de almacenar el exceso de copias de datos, lo que aumenta significativamente la capacidad de almacenamiento libre.

La mejor reducción de datos de su clase con Pure Storage

La deduplicación de datos es solo una pieza del rompecabezas más grande de la reducción de datos. Purity Reduce en FlashArray ™ no solo ofrece un proceso de deduplicación en línea de alto rendimiento con un tamaño de bloque variable de 4KB-32KB sino que también utiliza la eliminación de patrones, la compresión en línea, la reducción profunda y la reducción de copias para proporcionar las ratios de reducción de datos más granulares y completas que se observan en el sector del almacenamiento flash. Descubra por qué la deduplicación de datos con FlashArray de Pure Storage® es diferente.

11/2024
Pure Storage FlashArray//C | Data Sheet
FlashArray//C lets you consolidate workloads with consistent all-flash NVMe performance at a lower TCO than hybrid storage.
Hoja de datos
4 páginas
CONTACTAR CON NOSOTROS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudarle.

Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes. 

Llámenos al: +34 51 889 8963

Medios de comunicaciónpr@purestorage.com

 

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.