Lorsque vous avez plusieurs pipelines de données, vous devez savoir d’où proviennent les données, quelles mesures ont été prises pour les transformer et où elles sont stockées. La mise en place d’une solution de suivi de la lignée des données assure une meilleure protection des données et aide les entreprises à suivre les modifications apportées aux données sensibles. La plupart des entreprises utilisent la documentation pour détailler les pipelines de données et la lignée de données, mais les outils logiciels facilitent la surveillance et la documentation des modifications apportées à vos données.
Qu’est-ce que la lignée de données ?
La lignée de données se présente généralement sous la forme d’une documentation utilisée pour mieux gérer les données et les modifications apportées. L’endroit où les données sont stockées est également documenté afin que les entreprises sachent que les données sont stockées d’une manière qui reste conforme aux réglementations locales. Dans un pipeline de données d’entreprise, les données brutes peuvent être extraites de plusieurs sources (p. ex. sites Web et fichiers plats internes) et transformées pour être stockées dans une base de données structurée ou non structurée pour l’analytique de données. La documentation de la lignée de données détaille l’endroit où les données sont extraites et les modifications qui y sont apportées.
La documentation des modifications de données, des sources et de l’emplacement de stockage final garantit que les pipelines fonctionnent comme prévu et que les erreurs peuvent être corrigées plus rapidement. Par exemple, la source de données peut modifier sa structure, de sorte que le pipeline de données apporte des modifications à un numéro de téléphone où des numéros incorrects sont stockés dans la destination finale. La documentation de la lignée de données aide les développeurs à identifier plus rapidement l’emplacement des erreurs.
Avantages de la lignée de données
Les données sensibles doivent être stockées selon certaines normes de sécurité. La journalisation doit être effectuée sur l’accès aux données. Un document de lignée de données garantit de meilleurs résultats en matière de conformité, et il peut être utilisé pendant n’importe quelle procédure d’audit. La conformité n’est qu’un avantage important de la lignée de données.
La documentation des étapes de la transformation des données, de l’extraction des sources et de la destination finale du stockage rend également le dépannage plus efficace. Lorsque les développeurs connaissent chaque étape de la transformation des données, ils peuvent valider le code et identifier les erreurs plus rapidement. Lorsque les données sont utilisées dans des applications orientées client, les développeurs peuvent identifier plus rapidement l’emplacement de stockage des données. Toute intégration de données est plus efficace, et la documentation pour la lignée de données réduit les risques de perte d’intégrité des données pendant le développement des applications.
Mise en œuvre de la lignée de données
Cela peut sembler un projet simple, mais la mise en œuvre de la lignée de données peut représenter un défi considérable pour les applications d’entreprise. Chaque partie prenante doit être impliquée, et il peut falloir des mois pour recueillir toutes les informations nécessaires pour documenter la lignée de données. Voici les étapes de base du processus de lignée de données :
- Discutez avec les parties prenantes pour comprendre l’application utilisée pour leur poste.
- Discutez des sources de données applicatives avec les développeurs.
- Déterminez les métadonnées de votre catalogue de données.
- Créez un catalogue de données à l’aide des métadonnées .
- Définir un nouveau suivi de la lignée de données.
- Procédures de suivi des documents.
- Établir une gouvernance sur les futures modifications des données pour s’assurer que la documentation reste à jour.
- Discuter des changements avec les parties prenantes.
- Surveillez le suivi de la lignée de données et modifiez-le si nécessaire.
La découverte des données et le suivi des modifications constituent un défi de taille, mais vous pouvez utiliser des outils pour simplifier le processus. Certains outils vous aident à créer un catalogue de données, tandis que d’autres découvrent des sources de données. Ce que vous utilisez dépend de votre processus et de ce que vous souhaitez accomplir. Voici quelques outils pour vous aider à démarrer :
- Collibra Data Lineage : Recherchez automatiquement les sources de données et mappez le flux de travail des sources vers la destination de stockage finale.
- Octopai : Gérez votre catalogue de données et les métadonnées associées à chaque source de données.
- Atlan : Cartographier les pipelines de données et s’assurer que les emplacements de stockage et le processus de pipeline respectent les exigences réglementaires en matière de conformité.
Bonnes pratiques pour la lignée de données
Si votre processus de lignée de données tombe en panne, vous risquez de perdre le suivi des sources de données, de travailler avec des données sensibles sans être en conformité, ou de perdre des données lorsque vos pipelines ne fonctionnent plus correctement. Pour éviter les pertes de données ou les violations coûteuses de la conformité, vous pouvez suivre certaines bonnes pratiques pour les procédures de lignée de données. Voici quelques moyens de sécuriser et de documenter votre lignée de données et vos pipelines :
- Mettez à jour la documentation en cas de modification de vos pipelines, de votre destination ou de vos sources.
- Versions d’audit et de journal de la documentation avec des informations sur qui l’a modifiée et quand.
- Utilisez l’automatisation pour accélérer la livraison et réduire les risques de supervision.
- Élaborez une convention de nommage qui reste cohérente dans l’ensemble de votre documentation.
- Cataloguer les personnes responsables des données et des applications à l’aide des données.
- Examinez chaque année la documentation pour vous assurer qu’elle est toujours exacte.
Défis et solutions
La lignée de données est une forme d’audit, et comme pour tout projet d’audit, elle peut présenter des difficultés. Le principal défi pour la plupart des auditeurs est de trouver des sources de données et de mapper les pipelines vers les destinations de données. Dans un environnement d’entreprise, il est possible d’avoir des centaines de sources de données. La transformation des données peut prendre plusieurs étapes, et les données peuvent être envoyées à des bases de données sur site ou dans le cloud. Il peut être difficile de localiser les données au fur et à mesure qu’elles se déplacent dans le pipeline de données. Les outils de découverte associés à l’intelligence artificielle permettent de relever ce défi, et les développeurs de pipelines de données peuvent répondre aux questions de transformation.
Les développeurs et les administrateurs de bases de données effectuent souvent des modifications sans les documenter. Sans mises à jour, la documentation de la lignée de données est obsolète. Il est difficile pour les auditeurs et les administrateurs de s’assurer que la documentation sur la lignée de données est à jour avec les modifications apportées aux pipelines de données. Travailler avec les parties prenantes et élaborer des politiques nécessitant une documentation de la part des développeurs contribue à réduire ce risque. De plus, des outils peuvent être utilisés pour automatiser les modifications et envoyer des alertes lorsque des modifications sont apportées au pipeline de données.
Conclusion
Pour assurer la conformité et faciliter la transition lorsque vous changez de pipeline de données, un processus de lignée de données peut documenter chaque source, destination et transformation affectant les données. Les données sensibles sont suivies afin que les contrôles de stockage et d’accès respectent les exigences de conformité. Vous pouvez utiliser le stockage unifié Pure Storage pour vous aider à améliorer l’évolutivité et la documentation de vos données.