Cuando tiene varios procesos de datos, debe saber de dónde provienen los datos, qué pasos se tomaron para transformarlos y dónde se almacenan. Contar con una solución de seguimiento de linaje de datos proporciona una mejor protección de los datos y ayuda a las empresas a realizar un seguimiento de los cambios en los datos sensibles. La mayoría de las empresas utilizan la documentación para detallar los procesos de datos y el linaje de datos, pero las herramientas de software facilitan el monitoreo y la documentación de los cambios en sus datos.
¿Qué es el linaje de datos?
El linaje de datos generalmente se presenta en forma de documentación que se utiliza para administrar mejor los datos y los cambios que se realizan. El lugar donde se almacenan los datos también se documenta para que las empresas sepan que los datos se almacenan de una manera que cumple con las reglamentaciones locales. En un proceso de datos empresariales, los datos sin procesar pueden extraerse de varias fuentes (p. ej., sitios web y archivos internos planos) y transformarse para almacenarlos en una base de datos estructurada o una base de datos no estructurada para el análisis de datos. La documentación del linaje de datos detalla dónde se extraen los datos y los cambios realizados.
Documentar los cambios de datos, las fuentes y la ubicación de almacenamiento final garantiza que las tuberías funcionen según lo esperado y que cualquier error pueda corregirse más rápidamente. Por ejemplo, la fuente de datos puede cambiar su estructura, por lo que el proceso de datos realiza cambios en un número de teléfono donde se almacenan números incorrectos en el destino final. Tener documentación de linaje de datos ayuda a los desarrolladores a identificar más rápidamente dónde se producen los errores.
Beneficios del linaje de datos
Los datos sensibles deben almacenarse utilizando ciertos estándares de seguridad. El registro debe realizarse en el acceso a datos. Un documento de linaje de datos garantiza mejores resultados para el cumplimiento y se puede usar durante cualquier procedimiento de auditoría. El cumplimiento es solo un beneficio importante del linaje de datos.
Documentar las etapas de la transformación de datos, la extracción de fuentes y el destino final del almacenamiento también hace que la resolución de problemas sea más eficiente. Cuando los desarrolladores conocen cada paso en la transformación de datos, pueden validar el código e identificar cualquier error más rápidamente. Cuando los datos se utilizan en aplicaciones orientadas al cliente, los desarrolladores pueden identificar más rápidamente dónde se almacenan los datos. Cualquier integración de datos es más eficiente, y contar con documentación para el linaje de datos reduce los riesgos de perder la integridad de los datos durante el desarrollo de la aplicación.
Implementación del linaje de datos
Puede parecer un proyecto fácil, pero implementar el linaje de datos puede ser un desafío masivo para las aplicaciones de nivel empresarial. Cada parte interesada debe estar involucrada y puede llevar meses recopilar toda la información necesaria para documentar el linaje de datos. Estos son los pasos básicos para el proceso de linaje de datos:
- Hable con las partes interesadas para comprender la aplicación utilizada para su función laboral.
- Analice las fuentes de datos de las aplicaciones con los desarrolladores.
- Determine los metadatos de su catálogo de datos.
- Cree un catálogo de datos con metadatos .
- Defina el nuevo seguimiento del linaje de datos.
- Procedimientos de seguimiento de documentos.
- Establezca una gobernanza sobre los cambios de datos futuros para garantizar que la documentación se mantenga actualizada.
- Analice los cambios con las partes interesadas.
- Monitoree el seguimiento del linaje de datos y cámbielo cuando sea necesario.
El descubrimiento de datos y el seguimiento de cambios es un desafío masivo, pero puede trabajar con herramientas para facilitar el proceso. Algunas herramientas lo ayudan a crear un catálogo de datos y otras descubren fuentes de datos. Lo que utilice depende de su proceso y de lo que desee lograr. Estas son algunas herramientas para comenzar:
- Linaje de datos de Collibra: Encuentre automáticamente las fuentes de datos y asigne el flujo de trabajo desde las fuentes hasta el destino de almacenamiento final.
- Octopai: Administre su catálogo de datos y los metadatos asignados a cada fuente de datos.
- Atlán : Mapee los procesos de datos y asegúrese de que las ubicaciones de almacenamiento y el proceso de proceso de procesos cumplan con los requisitos regulatorios para el cumplimiento.
Mejores prácticas para el linaje de datos
Si su proceso de linaje de datos se descompone, podría perder el seguimiento de las fuentes de datos, posiblemente trabajar con datos confidenciales sin cumplir con los requisitos o perder datos cuando sus tuberías ya no funcionen correctamente. Para evitar la pérdida de datos o las costosas violaciones de cumplimiento, puede seguir algunas de las mejores prácticas para los procedimientos de linaje de datos. Estas son algunas maneras de mantener su linaje de datos y sus procesos seguros y documentados:
- Actualice la documentación cuando haya cambios en sus procesos, destino o fuentes.
- Audite y registre las versiones de la documentación con información sobre quién la cambió y cuándo.
- Use la automatización para acelerar la entrega y reducir los riesgos de supervisión.
- Desarrolle una convención de nomenclatura que se mantenga uniforme en toda su documentación.
- Clasifique a las personas responsables de los datos y las aplicaciones que usan los datos.
- Revise la documentación anualmente para asegurarse de que siga siendo precisa.
Desafíos y soluciones
El linaje de datos es una forma de auditoría y, al igual que con cualquier proyecto de auditoría, puede tener desafíos. El mayor desafío para la mayoría de los auditores es encontrar fuentes de datos y mapear procesos a destinos de datos. En un entorno empresarial, es posible tener cientos de fuentes de datos. La transformación de los datos podría tomar varios pasos, y los datos podrían enviarse a bases de datos en el sitio o en la nube. Puede ser difícil localizar los datos a medida que se mueven por el proceso de datos. Las herramientas de descubrimiento con inteligencia artificial ayudan con este desafío, y los desarrolladores de procesos de datos pueden ayudar con las preguntas de transformación.
Los desarrolladores y administradores de bases de datos a menudo realizan cambios sin documentarlos. Sin actualizaciones, la documentación del linaje de datos se vuelve obsoleta. Es difícil para los auditores y administradores garantizar que la documentación del linaje de datos se mantenga actualizada con los cambios en los procesos de datos. Trabajar con las partes interesadas y crear políticas que requieran documentación de los desarrolladores ayuda a reducir este riesgo. Además, se pueden usar herramientas para ayudar a automatizar los cambios y enviar alertas cuando se realizan cambios en el proceso de datos.
Conclusiones
Para el cumplimiento y una transición más fluida cuando cambia los procesos de datos, un proceso de linaje de datos puede documentar cada fuente, destino y transformación que afecta los datos. Se realiza un seguimiento de los datos confidenciales para que los controles de almacenamiento y acceso cumplan con los requisitos de cumplimiento. Puede aprovechar el almacenamiento unificado de Pure Storage para ayudar con la escalabilidad y una mejor documentación de sus datos.