Quando hai più pipeline di dati, devi sapere da dove provengono i dati, quali misure sono state adottate per trasformarli e dove sono archiviati. Disporre di una soluzione di monitoraggio del lignaggio dei dati offre una migliore protezione dei dati e aiuta le aziende a tenere traccia delle modifiche ai dati sensibili. La maggior parte delle aziende utilizza la documentazione per descrivere in dettaglio le pipeline dei dati e il loro lignaggio, ma gli strumenti software facilitano il monitoraggio e la documentazione delle modifiche ai dati.
Che cos'è il data lineage?
Il data lineage è solitamente sotto forma di documentazione utilizzata per gestire meglio i dati e modificarli. Il luogo in cui vengono archiviati i dati viene documentato in modo che le aziende sappiano che i dati vengono archiviati in modo conforme alle normative locali. In una pipeline di dati aziendali, i dati non elaborati possono essere estratti da diverse origini (ad esempio siti Web e file flat interni) e trasformati per memorizzarli in un database strutturato o in un database non strutturato per l'analisi dei dati. La documentazione del data lineage descrive in dettaglio dove vengono estratti i dati e le modifiche apportate.
La documentazione delle modifiche dei dati, delle origini e della posizione di storage finale assicura che le pipeline funzionino come previsto e che gli errori possano essere corretti più rapidamente. Ad esempio, l'origine dati potrebbe modificarne la struttura, pertanto la pipeline dei dati apporta modifiche a un numero di telefono in cui nella destinazione finale sono memorizzati numeri errati. Disporre di una documentazione del data lineage aiuta gli sviluppatori a identificare più rapidamente dove si verificano gli errori.
Vantaggi del data lineage
I dati sensibili devono essere archiviati utilizzando determinati standard di sicurezza. L'accesso ai dati deve essere eseguito tramite registrazione. Un documento di data lineage garantisce risultati migliori per la conformità e può essere utilizzato durante qualsiasi procedura di audit. La conformità è solo uno dei vantaggi più importanti del data lineage.
Anche la documentazione delle fasi di trasformazione dei dati, l'estrazione dell'origine e la destinazione finale dello storage rendono la risoluzione dei problemi più efficiente. Quando gli sviluppatori conoscono ogni fase della trasformazione dei dati, possono convalidare il codice e identificare gli errori più rapidamente. Quando i dati vengono utilizzati in applicazioni rivolte ai clienti, gli sviluppatori possono identificare più rapidamente dove vengono archiviati. Qualsiasi integrazione dei dati è più efficiente e la documentazione per il data lineage riduce il rischio di perdere l'integrità dei dati durante lo sviluppo delle applicazioni.
Implementazione del data lineage
Potrebbe sembrare un progetto semplice, ma l'implementazione del data lineage può rappresentare una sfida enorme per le applicazioni di livello enterprise. Ogni stakeholder deve essere coinvolto e possono essere necessari mesi per raccogliere tutte le informazioni necessarie per documentare il lignaggio dei dati. Ecco i passaggi di base per il processo di data lineage:
- Parla con gli stakeholder per capire l'applicazione utilizzata per la loro funzione lavorativa.
- Discutere le origini dati delle applicazioni con gli sviluppatori.
- Determina i metadati per il tuo catalogo dati.
- Crea un catalogo di dati utilizzando i metadati .
- Definisci il nuovo monitoraggio del lignaggio dei dati.
- Procedure di monitoraggio dei documenti.
- Stabilisci una governance sulle future modifiche dei dati per garantire che la documentazione rimanga aggiornata.
- Discutere i cambiamenti con gli stakeholder.
- Monitora il monitoraggio del lignaggio dei dati e modificalo quando necessario.
La scoperta dei dati e il monitoraggio delle modifiche è una sfida enorme, ma puoi lavorare con strumenti per semplificare il processo. Alcuni strumenti ti aiutano a creare un catalogo dati, altri a scoprire le origini dati. Ciò che usi dipende dal processo e dai risultati che vuoi ottenere. Ecco alcuni strumenti per iniziare:
- Data lineage Collibra: Trova automaticamente le origini dati e mappa il flusso di lavoro dalle origini alla destinazione di storage finale.
- Octopai: Gestisci il catalogo dati e i metadati mappati a ciascuna origine dati.
- Atlan: Mappa le pipeline dei dati e assicurati che le posizioni di storage e il processo della pipeline seguano i requisiti normativi per la conformità.
Best practice per il data lineage
Se il processo di data lineage si rompe, potresti perdere di vista le origini dati, lavorare con i dati sensibili senza essere conformi o perdere i dati quando le pipeline non funzionano più correttamente. Per evitare la perdita di dati o costose violazioni della conformità, puoi seguire alcune best practice per le procedure di gestione dei dati. Ecco alcuni modi per proteggere e documentare la tua linea di dati e le pipeline:
- Aggiorna la documentazione quando ci sono modifiche alle pipeline, alla destinazione o alle origini.
- Controlla e registra le versioni della documentazione con informazioni su chi l'ha modificata e quando.
- Utilizza l'automazione per accelerare la delivery e ridurre i rischi di supervisione.
- Sviluppa una convenzione di denominazione che sia coerente in tutta la documentazione.
- Catalogare le persone responsabili dei dati e delle applicazioni che utilizzano i dati.
- Rivedi la documentazione ogni anno per assicurarti che sia ancora accurata.
Sfide e soluzioni
Il data lineage è una forma di auditing e, come per qualsiasi progetto di auditing, può avere delle sfide. La sfida più grande per la maggior parte dei revisori è trovare le origini dati e mappare le pipeline alle destinazioni dati. In un ambiente enterprise, è possibile avere centinaia di origini dati. La trasformazione dei dati potrebbe richiedere diversi passaggi e i dati potrebbero essere inviati a database onsite o nel cloud. Può essere difficile individuare i dati man mano che si spostano nella pipeline dei dati. Gli strumenti di scoperta con intelligenza artificiale aiutano a risolvere questa sfida e gli sviluppatori per le pipeline di dati possono aiutare a risolvere le domande sulla trasformazione.
Gli sviluppatori e gli amministratori di database spesso apportano modifiche senza documentarle. Senza aggiornamenti, la documentazione del data lineage diventa obsoleta. Per i revisori e gli amministratori è difficile garantire che la documentazione del data lineage sia sempre aggiornata sulle modifiche apportate alle pipeline dei dati. Collaborare con gli stakeholder e creare policy che richiedono la documentazione degli sviluppatori aiuta a ridurre questo rischio. Inoltre, gli strumenti possono essere utilizzati per automatizzare le modifiche e inviare avvisi quando vengono apportate modifiche alla pipeline dei dati.
Conclusione
Per garantire la conformità e una transizione più fluida quando si modificano le pipeline dei dati, un processo di data lineage può documentare ogni origine, destinazione e trasformazione che influisce sui dati. I dati sensibili vengono monitorati in modo che tutti i controlli di storage e accesso rispettino i requisiti di conformità. Puoi sfruttare lo storage unificato di Pure Storage per aiutarti con la scalabilità e una migliore documentazione dei tuoi dati.