Skip to Content

Qu’est-ce que la déduplication des données ?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

La déduplication des données dans le stockage est une technologie fondamentale pour gérer les charges de données, qui aide les utilisateurs de tous types à économiser de l’espace et à effectuer des sauvegardes plus rapidement. Dans cet article, nous examinons la déduplication des données dans le stockage, son importance, son fonctionnement et les différents types de processus de déduplication.  

Qu’est-ce que la déduplication des données ?

La déduplication des données consiste à éliminer les copies de données redondantes. Il s’agit d’une technique d’optimisation du stockage de données qui libère des ressources en supprimant les segments de données non uniques dans les ensembles de données.  

Pourquoi la déduplication des données est-elle importante ?

Avec l’essor des opérations axées sur les données et du lieu de travail numérique, les organisations de toutes sortes gèrent et utilisent davantage de données et les envoient vers et depuis plus de terminaux que jamais. 

Au fil du temps, il est inévitable que des données en double et non uniques puissent s’accumuler dans les systèmes de stockage au fur et à mesure que les organisations effectuent leurs opérations quotidiennes. Ces données redondantes s’aggravent davantage lorsque l’on tient compte de la nécessité de maintenir une certaine redondance intentionnelle à des fins de reprise après sinistre, de haute disponibilité et de protection des données. 

Les données en double consomment de l’espace de stockage qui pourrait autrement être réutilisé pour gérer les volumes de données toujours croissants auxquels les organisations modernes doivent faire face. En supprimant ces données en double, vous pouvez libérer de l’espace sans avoir à acheter de capacité supplémentaire pour répondre à la demande croissante en données. 

En d’autres termes, l’investissement dans la capacité de déduplication des données solides se traduit directement par des économies de stockage. La déduplication des données est un processus fondamental qui aide les organisations à relever leurs défis en matière de données de la manière la plus efficace, rationalisée et économique possible.

Quels sont les avantages de la déduplication des données ?

L’avantage le plus évident est qu’une empreinte de stockage plus faible est nécessaire. Cela peut représenter des économies considérables pour les grandes organisations qui disposent d’énormes ensembles de données, mais les avantages dépassent les budgets. Avec la déduplication des données, les sauvegardes peuvent être effectuées plus rapidement, avec moins de ressources de calcul et de stockage nécessaires. Les utilisateurs peuvent accéder aux données plus rapidement et avec moins d’erreurs pouvant survenir en raison de doublons et de conflits.

Il est utile de noter que les coûts d’un parc de données encombré sont encourus à maintes reprises chaque fois que les données sont consultées ou déplacées. À l’inverse, les avantages d’une seule déduplication continueront à apporter des avantages à l’avenir. 

La déduplication est une technologie fondamentale pour améliorer le fonctionnement de l’informatique. C’est pourquoi elle est intégrée à de nombreux systèmes et exécutée par défaut. 

Comment fonctionne la déduplication ?

Bien que la déduplication consiste essentiellement à supprimer les instances de données non uniques de votre ensemble de données, il existe quelques nuances techniques qui méritent d’être étudiées sur le fonctionnement de la déduplication des données sous le capot.

Déduplication au niveau du fichier

La déduplication des données au niveau des fichiers implique l’élimination des fichiers en double. Le système s’assure qu’une copie de fichier n’est stockée qu’une seule fois, reliant d’autres références à ce premier fichier.  

Le processus de sauvegarde du stockage est un exemple familier de la déduplication au niveau des fichiers. Par défaut, la plupart des programmes de sauvegarde comparent les métadonnées des fichiers des volumes source et cible et réécrivent uniquement ces fichiers avec l’historique des modifications mis à jour, ce qui laisse les autres fichiers seuls. En outre, les utilisateurs ont généralement la possibilité d’effacer de l’emplacement de stockage tous les fichiers manquants à la source. 

Dans les environnements de données d’entreprise, un processus similaire est utilisé lors de l’importation ou de la fusion de fichiers ou lors de l’optimisation du stockage. Les jeux de fichiers sont analysés et comparés à un index, les fichiers non uniques étant stockés une seule fois et uniquement liés à partir de leurs emplacements d’origine.

Par conséquent, le processus est plus rapide, car le système copie moins de fichiers et l’espace de stockage est économisé en éliminant les fichiers supprimés. 

Déduplication au niveau des blocs

La déduplication peut également être effectuée au niveau du bloc, par exemple sur une base de données ou un fichier. Dans ce cas, le système divise les informations en segments de données de taille fixe appelés blocs et enregistre des itérations uniques de chaque segment. Un numéro unique est généré pour chaque pièce et stocké dans un index. Lorsqu’un fichier est mis à jour, au lieu d’écrire un fichier entièrement nouveau, seules les données modifiées sont enregistrées. Par conséquent, la déduplication en mode bloc est plus efficace que la déduplication en mode fichier. 

Cependant, la déduplication en mode bloc nécessite plus de puissance de traitement et un index plus large pour suivre les pièces individuelles. La déduplication à longueur variable est une méthode alternative qui utilise des segments de différentes tailles, que le système de déduplication peut utiliser pour obtenir de meilleurs taux de réduction de données qu’avec des blocs à longueur fixe. 

Déduplication en ligne ou post-traitement

Selon le cas d’utilisation, la déduplication peut être effectuée en ligne, ce qui signifie que les données sont introduites ou importées pour la première fois. Cela se traduit par une empreinte de stockage initiale réduite, mais le traitement peut devenir goulets d’étranglement. En raison de l’impact potentiel de la déduplication en ligne sur la puissance de calcul, il n’est pas recommandé d’utiliser cette méthode avec un stockage utilisé au quotidien. 

Au lieu de cela, la déduplication peut être effectuée rétroactivement en tant que post-traitement. Avec cette méthode, les données redondantes sont supprimées après ingestion. L’avantage de cette approche est que les opérations peuvent avoir lieu en dehors des heures de travail ou chaque fois que l’utilisateur le spécifie. L’utilisateur peut également demander au système de dédupliquer les fichiers ou les données nécessaires pour une charge de travail spécifique. La déduplication post-traitement offre plus de flexibilité, mais nécessite également un stockage de données plus important que la déduplication en ligne.

déduplication des données vs Compression vs Thin Provisioning

La déduplication est souvent comparée ou combinée à la compression et au Thin Provisioning, deux autres méthodes permettant de réduire les quantités de stockage. Si la déduplication élimine et réduit le nombre de fichiers ou la quantité de données, la compression utilise des algorithmes pour réduire le nombre de bits nécessaires à l’enregistrement des données. 

Le Thin Provisioning est une technique qui consiste à s’approvisionner en ressources de stockage ou de calcul à partir d’autres sources sur un réseau, comme d’autres utilisateurs finaux. De cette manière, les ressources existantes sont optimisées, moins de ressources sont nécessaires au total et l’efficacité est augmentée.

Qu’est-ce que la déduplication Veeam ?

Veeam Software est un développeur américain de logiciels de sauvegarde, de reprise après sinistre et de protection des données modernes pour les charges de travail virtuelles, cloud natives, SaaS, Kubernetes et physiques. Veeam Backup & Replication associe compression et déduplication pour optimiser les économies de stockage sur l’ensemble de votre système. 

Qu’est-ce que la déduplication NTFS ?

New Technology File System (NTFS) est un système de fichiers de journalisation propriétaire développé par Microsoft . La déduplication NTFS préserve le stockage en éliminant le besoin de stocker des copies excessives de données, ce qui augmente considérablement la capacité de stockage libre.

Réduction de données de premier ordre avec Pure Storage

La déduplication des données n’est qu’une partie du puzzle de réduction de données. Non seulement Purity Reduce sur FlashArray™ offre un processus de déduplication en ligne haute performance avec une taille de bloc variable de 4KB-32KB mais il exploite également la suppression des schémas, la compression en ligne, la réduction profonde et la réduction de copie pour offrir les taux de réduction de données les plus granulaires et complets du secteur du stockage flash. Découvrez en quoi la déduplication des données avec la baie FlashArray Pure Storage® est différente.

11/2024
Pure Storage Cloud for Azure VMware Solution
Shrink your Azure VMware costs with Pure Storage Cloud, a suite of enterprise-grade data services by Pure Storage.
Présentation
4 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.