Cuando se tienen múltiples pipelines de datos, hay que saber de dónde proceden los datos, qué pasos se tomaron para transformarlos y dónde se almacenan. Disponer de una solución de seguimiento del linaje de datos proporciona una mejor protección de los datos y ayuda a las empresas a realizar un seguimiento de los cambios en los datos confidenciales. La mayoría de las empresas utilizan la documentación para detallar los pipelines de datos y el linaje de datos, pero las herramientas de software facilitan la supervisión y la documentación de los cambios en sus datos.
¿Qué es Data Lineage?
El linaje de datos suele ser en forma de documentación que se utiliza para gestionar mejor los datos y los cambios en ellos. El lugar donde se almacenan los datos también se documenta para que las empresas sepan que los datos se almacenan de un modo que cumpla las normativas locales. En una canalización de datos empresariales, los datos brutos pueden extraerse de varias fuentes (por ejemplo, sitios web y archivos planos internos) y transformarse para almacenarlos en una base de datos estructurada o en una base de datos no estructurada para el análisis de datos. La documentación del linaje de datos detalla dónde se extraen los datos y los cambios realizados en ellos.
La documentación de los cambios en los datos, las fuentes y la ubicación de almacenamiento final garantiza que las canalizaciones funcionan como se espera y que cualquier error puede corregirse más rápidamente. Por ejemplo, el origen de datos puede cambiar su estructura, por lo que el pipeline de datos realiza cambios en un número de teléfono en el que se almacenan números incorrectos en el destino final. Disponer de documentación de linaje de datos ayuda a los desarrolladores a identificar más rápidamente dónde se producen los errores.
Ventajas del linaje de datos
Los datos confidenciales deben almacenarse usando ciertos estándares de seguridad. El registro debe realizarse en el acceso a los datos. Un documento de linaje de datos garantiza unos mejores resultados para el cumplimiento normativo y puede usarse durante cualquier procedimiento de auditoría. El cumplimiento normativo es solo una ventaja importante del linaje de datos.
La documentación de las fases de la transformación de los datos, la extracción de la fuente y el destino final del almacenamiento también hace que la resolución de problemas sea más eficiente. Cuando los desarrolladores conocen cada paso de la transformación de los datos, pueden validar el código e identificar cualquier error más rápidamente. Cuando los datos se usan en aplicaciones orientadas al cliente, los desarrolladores pueden identificar más rápidamente dónde se almacenan los datos. Cualquier integración de datos es más eficiente y tener documentación para el linaje de datos reduce el riesgo de perder la integridad de los datos durante el desarrollo de las aplicaciones.
Implementación del linaje de datos
Puede parecer un proyecto fácil, pero la implementación del linaje de datos puede ser un reto enorme para las aplicaciones de nivel empresarial. Cada parte interesada debe estar involucrada y puede tardar meses en recopilar toda la información necesaria para documentar el linaje de datos. Estos son los pasos básicos del proceso de linaje de datos:
- Hable con las partes interesadas para entender la solicitud utilizada para su función laboral.
- Hable con los desarrolladores de las fuentes de datos de las aplicaciones.
- Determine los metadatos de su catálogo de datos.
- Cree un catálogo de datos usando metadatos.
- Defina un nuevo seguimiento del linaje de datos.
- Procedimientos de seguimiento de documentos.
- Establecer una gobernanza sobre los cambios futuros en los datos para garantizar que la documentación se mantiene actualizada.
- Comente los cambios con las partes interesadas.
- Supervise el seguimiento del linaje de datos y cámbielo cuando sea necesario.
El descubrimiento de los datos y el seguimiento de los cambios es un reto enorme, pero puede trabajar con herramientas para facilitar el proceso. Algunas herramientas le ayudan a crear un catálogo de datos y otras descubren fuentes de datos. Lo que use depende de su proceso y de lo que quiera lograr. Estas son algunas herramientas para empezar:
- Lineaje de datos de Collibra: Encuentre automáticamente las fuentes de datos y asigne el flujo de trabajo de las fuentes al destino de almacenamiento final.
- Octopai: Gestione su catálogo de datos y los metadatos asignados a cada fuente de datos.
- Atlán: Mapee los pipelines de datos y asegúrese de que las ubicaciones de almacenamiento y el proceso de pipeline siguen los requisitos normativos para el cumplimiento normativo.
Mejores prácticas para el linaje de datos
Si su proceso de linaje de datos se descompone, podría perder el seguimiento de las fuentes de datos, posiblemente trabajar con datos confidenciales sin cumplir los requisitos o perder datos cuando sus pipelines ya no funcionan correctamente. Para evitar la pérdida de datos o las costosas infracciones de cumplimiento, puede seguir algunas de las mejores prácticas para los procedimientos de linaje de datos. Estas son algunas maneras de mantener su linaje de datos y sus pipelines seguros y documentados:
- Actualice la documentación cuando haya cambios en sus pipelines, destino o fuentes.
- Auditar y registrar las versiones de la documentación con información sobre quién la cambió y cuándo.
- Utilice la automatización para acelerar la entrega y reducir los riesgos de supervisión.
- Desarrolle una convención de nomenclatura que se mantenga constante en toda su documentación.
- Clasifique a las personas responsables de los datos y las aplicaciones que utilizan los datos.
- Revise la documentación anualmente para asegurarse de que sigue siendo exacta.
Retos y soluciones
El linaje de datos es una forma de auditoría y, como con cualquier proyecto de auditoría, puede tener problemas. El mayor reto para la mayoría de los auditores es encontrar fuentes de datos y asignar pipelines a destinos de datos. En un entorno empresarial, es posible tener cientos de fuentes de datos. La transformación de los datos puede dar varios pasos y los datos pueden enviarse a bases de datos in situ o a la nube. Puede ser difícil localizar los datos a medida que se mueven por el pipeline de datos. Las herramientas de descubrimiento con inteligencia artificial ayudan con este reto y los desarrolladores de pipelines de datos pueden ayudar con las preguntas de transformación.
Los desarrolladores y los administradores de bases de datos suelen realizar cambios sin documentarlos. Sin actualizaciones, la documentación del linaje de datos queda obsoleta. Para los auditores y administradores es difícil garantizar que la documentación del linaje de datos se mantiene actualizada con los cambios en los pipelines de datos. Trabajar con las partes interesadas y crear políticas que requieran documentación de los desarrolladores ayuda a reducir este riesgo. Además, las herramientas pueden usarse para ayudar a automatizar los cambios y enviar alertas cuando se realizan cambios en el pipeline de datos.
Conclusión
Para el cumplimiento normativo y una transición más fluida cuando se cambian los pipelines de datos, un proceso de linaje de datos puede documentar cada fuente, destino y transformación que afecta a los datos. Los datos sensibles se rastrean para que cualquier control de almacenamiento y acceso cumpla los requisitos de cumplimiento normativo. Puede utilizar el almacenamiento unificado de Pure Storage para ayudarle con la escalabilidad y con una mejor documentación de sus datos.