Skip to Content

Qu’est-ce que l’hygiène des données ?

L’hygiène des données est une pratique consistant à s’assurer que les données structurées et non structurées dans les bases de données ou partages de fichiers sont « propres », c’est-à-dire fiables, à jour et exemptes d’erreurs. Les termes de « propreté des données » ou de « qualité des données » font également référence à l’hygiène des données. 

En général, lorsque les données sont de mauvaise qualité, plusieurs facteurs entrent en ligne de compte :

  • La duplication des données (ou redondance des données) : lorsque des enregistrements dans une base de données apparaissent plusieurs fois. 
  • L’omission de données : lorsque toutes les données requises pour un enregistrement ne sont pas présentes. 
  • L’incohérence des données : lorsque les mêmes données existent sous différents formats dans plusieurs tables, ce qui conduit à la création de fichiers différents contenant des informations différentes sur le même objet ou la même personne.
  • L’inexactitude des données : lorsque les valeurs des données stockées pour un certain objet sont incorrectes.

Pourquoi l’hygiène des données est-elle importante ?

L’hygiène des données favorise la sécurité, la productivité, le respect de la réglementation et de la conformité, ainsi que l’efficacité. Pour cela, vos applications et vos processus professionnels ne doivent utiliser que des données propres, correctes et pertinentes, ce qui passe par la suppression des données personnelles sensibles devenues inutiles. Sans de bonnes pratiques en matière de données, vous ne ferez que suivre des indices et des miettes de pain qui vous mèneront à des impasses et vous feront prendre de mauvaises décisions. 

Voici quelques exemples de problèmes que les données de mauvaise qualité peuvent créer dans les organisations.

Vente et marketing

Une étude réalisée par DiscoverOrg a révélé que les services de vente et de marketing perdent environ 550 heures et jusqu’à 32 000 $ par représentant commercial en raison de l’utilisation de données incorrectes. 

Dans le domaine du marketing, elles peuvent entraîner des dépenses excessives. Les prospects peuvent également être gênés ou fuir en recevant le même contenu plusieurs fois en raison de la duplication des données (c’est ce qu’il se produit lorsque la même base de données contient plusieurs enregistrements avec le même nom orthographié de manière un peu différente).

Dans le cas des ventes en ligne, une mauvaise hygiène des données peut vous pousser à vendre le mauvais produit au mauvais client si vous manquez de données sur vos produits et vos publics cibles. 

Finance

Dans le domaine du reporting financier, vous pouvez obtenir plusieurs réponses à la même question en raison de l’incohérence des données, vos rapports seront alors inexacts et trompeurs. Ils pourraient vous donner un faux sentiment de sécurité ou, au contraire, un sentiment alarmant d’insécurité financière.

Chaîne logistique

Les données incorrectes peuvent également avoir de lourdes conséquences dans les chaînes logistiques, car il est très difficile d’automatiser les processus si les décisions sont basées sur des informations de localisation peu fiables.

Objectifs généraux de l’entreprise

Au niveau de l’entreprise, les problèmes liés à la qualité des données peuvent avoir un impact significatif sur votre capacité à atteindre vos objectifs à long terme. Ils peuvent :

  • avoir un impact négatif sur votre capacité à vous adapter et à réagir rapidement aux nouvelles tendances et conditions du marché ;
  • entraîner des difficultés plus importantes pour répondre aux exigences de conformité des principales réglementations en matière de confidentialité et de protection des données, comme le RGPD, l’HIPAA et le CCPA ;
  • poser des difficultés dans l’exploitation des analyses prédictives sur les données de l’entreprise, ce qui se traduit par des prises décisions plus risquées pour les objectifs à court et long terme.

Les défis liés à l’hygiène des données

Si l’importance d’une bonne hygiène des données ne fait aucun doute, de nombreuses entreprises ont du mal à assurer la qualité de leurs données. Selon une étude publiée par le Harvard Business Review, en moyenne, 47 % des nouveaux enregistrements de données comportent au moins une erreur critique (c’est-à-dire ayant un impact sur le travail) et seulement 3 % des scores de qualité des données sont jugés « acceptables », en utilisant la norme la plus faible possible. 

Divers facteurs peuvent freiner l’optimisation de l’hygiène des données, notamment :

  • Une variété croissante de sources de données : Les entreprises avaient l’habitude de n’utiliser que les données générées par leurs propres systèmes de gestion, comme les données relatives aux ventes ou aux stocks. Désormais, les sources de données varient considérablement et peuvent inclure des ensembles de données provenant d’Internet, d’appareils IoT, de données scientifiques et expérimentales, etc. Plus les sources de données sont nombreuses, plus il est difficile de s’assurer que les données n’ont pas été modifiées ou altérées d’une manière ou d’une autre. Chaque fois que vous ajoutez un autre système à votre moteur de traitement, vous courrez le risque que ces données perdent de la valeur en étant altérées ou perdues parce que différentes sources produisent différents types de données. Les données non structurées, c’est-à-dire les informations qui ne sont pas organisées selon un modèle ou un schéma de données prédéfini, représentent aujourd’hui environ 80 % de l’ensemble des données mondiales.
  • Des volumes de données en augmentation : Nous sommes incontestablement dans l’ère du Big Data, et ce dernier ne fait qu’augmenter. Depuis 1970, la quantité de données a doublé tous les trois ans. Plus il y a de données, plus il est difficile de les collecter, de les nettoyer, de les intégrer et d’obtenir une qualité raisonnablement élevée dans un certain délai. Si la plupart de ces données ne sont pas structurées, les temps de traitement augmenteront encore plus, car ces données non structurées doivent être transformées en données structurées ou semi-structurées, ce qui détériore encore la qualité du traitement des données.
  • Une accélération de la vitesse d’exploitation des données : Les données « en temps réel » sont devenues un grand mot à la mode au cours des cinq dernières années. En effet, plus les données générées sont nombreuses, plus vous devez les traiter rapidement, sous peine de voir vos systèmes encombrés. En ce sens, les données sont semblables à un liquide dans un tuyau : plus elles s’écoulent vite, plus le tuyau risque de se rompre, et la seule façon de gérer le volume croissant est d’agrandir le tuyau. En matière de données, agrandir le tuyau revient à les traiter plus rapidement pour répondre à la vitesse à laquelle elles arrivent. Mais le traitement en temps réel est encore un domaine relativement nouveau, une capacité récente, ce qui signifie qu’il y a encore beaucoup de « bruit », c’est-à-dire que certaines données ne sont pas utilisées alors que d’autres données non pertinentes le sont. Par conséquent, les décisions prises sur la base de ces données auront tendance à être, au mieux, non optimales et, au pire, erronées.
  • Un manque de normes claires en matière de qualité des données : Les normes de qualité pour les produits existent depuis 1987, date à laquelle l’Organisation internationale de normalisation (ISO) a publié la norme ISO 9000. En revanche, les normes officielles de qualité des données n’existent que depuis 2011 (depuis la norme ISO 8000), ce qui signifie qu’elles sont encore en cours de développement et relativement nouvelles. Selon une étude publiée en 2015 dans le Data Science Journal, « À l’heure actuelle, il n’existe pas d’analyse ou de recherche approfondies sur les normes de qualité et les méthodes d’évaluation de la qualité pour le Big Data. »

Bonnes pratiques en matière d’hygiène des données

Bien que les normes de qualité des données soient encore en cours de développement, il existe certaines bonnes pratiques établies en matière d’hygiène des données que vous pouvez adopter dès maintenant pour garantir et assurer durablement la qualité élevée de vos données.

Ces bonnes pratiques incluent :

Les audits 

Les audits sont essentiels pour maintenir une bonne hygiène des données et constituent généralement la première étape de tout processus de nettoyage. Avant de prendre des mesures, vous devez évaluer la qualité de vos données et établir un point de référence réaliste pour l’hygiène des données de votre entreprise. Un audit de données typique consiste à examiner de près votre infrastructure et vos processus informatiques pour déterminer où se trouvent vos données, comment elles sont utilisées et à quelle fréquence elles sont mises à jour. 

La conformité

Il est essentiel de définir des politiques concernant les données collectées et leur objectif, en particulier si ces données proviennent de consommateurs. Il s’agit notamment de consolider les politiques de conservation et de suppression des données. Les calendriers de conservation déterminent la durée pendant laquelle les données sont stockées sur un système avant d’être supprimées. Les pratiques d’hygiène consistent à savoir quelles sont les données stockées, pourquoi, où et quand elles doivent être supprimées. En savoir plus sur les bonnes pratiques en matière de conformité des données.

La gouvernance

La gouvernance des données correspond à l’ensemble des processus, rôles, politiques, normes et indicateurs garantissant l’utilisation efficace des informations pour permettre à une organisation d’atteindre ses objectifs. La gouvernance des données définit qui peut prendre quelle mesure, sur quelles données, dans quelles situations et à l’aide de quelles méthodes. Une bonne gouvernance est essentielle pour garantir une qualité élevée des données au sein d’une organisation. 

L’automatisation

Enfin, une bonne hygiène des données passe par l’automatisation des processus liés à la qualité des données. Cela implique principalement de mettre automatiquement à jour vos données aussi fréquemment que possible, afin de garantir qu’elles sont actuelles et correctes. Les systèmes de nettoyage des données peuvent passer au crible d’importants volumes et utiliser des algorithmes pour détecter les anomalies ou identifier les valeurs aberrantes résultant d’une erreur humaine. Ils peuvent également examiner vos bases de données pour détecter les doublons dans les enregistrements. 

Comment évaluer la qualité des données ?

La qualité des données dépend de plusieurs attributs. Des données de haute qualité sont :

  • À jour : elles sont créées, gérées, disponibles immédiatement et selon les besoins.
  • Concises : elles ne contiennent pas d’informations superflues.
  • Cohérentes : il n’y a pas de conflits d’information au sein des systèmes ou entre eux.
  • Exactes : les données sont correctes, précises et à jour.
  • Complètes : toutes les données disponibles et nécessaires sont présentes.
  • Conformes : elles sont stockées dans un format approprié et standardisé.
  • Valides : elles sont authentiques et proviennent de sources connues et fiables.

Si vos données répondent à tous ces critères, vous, vos systèmes et vos applications disposerez des meilleures informations possibles pour améliorer le service client, l’expérience utilisateur et les résultats commerciaux.

Assurez la réduction et la déduplication efficace des données avec les solutions Pure Storage®

Le processus de déduplication consiste à éliminer les doublons de données dans un volume de stockage ou dans l’ensemble d’un système de stockage (déduplication entre volumes). Il utilise la reconnaissance des schémas pour identifier les données redondantes et les remplacer par des références à une seule copie sauvegardée. Avec Purity Reduce, Pure Storage® utilise cinq technologies de réduction de données différentes pour économiser de l’espace dans ses baies 100 % flash. En savoir plus ici.

11/2024
Pure Storage Cloud for Azure VMware Solution
Shrink your Azure VMware costs with Pure Storage Cloud, a suite of enterprise-grade data services by Pure Storage.
Présentation
4 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.