Wanneer u meerdere datapipelines hebt, moet u weten waar data vandaan komen, welke stappen zijn genomen om deze te transformeren en waar ze zijn opgeslagen. Het hebben van een oplossing voor het volgen van datalijnen zorgt voor een betere bescherming van data en helpt bedrijven wijzigingen in gevoelige data bij te houden. De meeste bedrijven gebruiken documentatie om datapipelines en datalineage te detailleren, maar softwaretools maken het gemakkelijker om wijzigingen in uw data te monitoren en te documenteren.
Wat is Data Lineage?
Datalineage is meestal in de vorm van documentatie die wordt gebruikt om data en wijzigingen in de data beter te beheren. Waar data worden opgeslagen, wordt ook gedocumenteerd, zodat bedrijven weten dat data worden opgeslagen op een manier die voldoet aan de lokale regelgeving. In een pijplijn van bedrijfsdata kunnen ruwe data uit verschillende bronnen worden geëxtraheerd (bijv. websites en interne platte bestanden) en worden getransformeerd om ze op te slaan in een gestructureerde database of een ongestructureerde database voor data-analyse. Datalineage-documentatiedetails waar data worden geëxtraheerd en de wijzigingen die eraan worden aangebracht.
Het documenteren van datawijzigingen, bronnen en de uiteindelijke opslaglocatie zorgt ervoor dat pijpleidingen naar verwachting werken en eventuele fouten sneller kunnen worden gecorrigeerd. De databron kan bijvoorbeeld zijn structuur veranderen, dus de datapijplijn brengt wijzigingen aan in een telefoonnummer waar onjuiste nummers worden opgeslagen op de eindbestemming. Het hebben van datalineage-documentatie helpt ontwikkelaars sneller te identificeren waar de fouten zich voordoen.
Voordelen van Data Lineage
Gevoelige data moeten worden opgeslagen met behulp van bepaalde beveiligingsnormen. Logging moet worden uitgevoerd bij datatoegang. Een datalineage-document zorgt voor betere resultaten voor compliance en kan tijdens alle auditprocedures worden gebruikt. Naleving is slechts één belangrijk voordeel van datalineage.
Het documenteren van de stadia van datatransformatie, bronextractie en de eindbestemming voor opslag maakt het oplossen van problemen ook efficiënter. Wanneer ontwikkelaars elke stap in datatransformatie kennen, kunnen ze code valideren en eventuele fouten sneller identificeren. Wanneer data wordt gebruikt in klantgerichte applicaties, kunnen ontwikkelaars sneller vaststellen waar data wordt opgeslagen. Elke data-integratie is efficiënter, en het hebben van documentatie voor datalineage vermindert de risico's op het verlies van data-integriteit tijdens de ontwikkeling van applicaties.
Data Lineage implementeren
Het lijkt misschien een eenvoudig project, maar het implementeren van datalineage kan een enorme uitdaging zijn voor enterprise-tier applicaties. Elke belanghebbende moet erbij betrokken zijn en het kan maanden duren om alle nodige informatie te verzamelen om de datalineage te documenteren. Dit zijn de basisstappen voor het datalineageproces:
- Spreek met belanghebbenden om inzicht te krijgen in de applicatie die voor hun functie wordt gebruikt.
- Bespreek applicatiedatabronnen met ontwikkelaars.
- Bepaal Metadata voor uw datacatalogus.
- Maak een datacatalogus met Metadata.
- Definieer nieuwe datalineage tracking.
- Documenttraceringsprocedures.
- Stel governance vast over toekomstige datawijzigingen om ervoor te zorgen dat de documentatie actueel blijft.
- Bespreek veranderingen met belanghebbenden.
- Monitor het volgen van datalijnen en wijzig deze indien nodig.
Het ontdekken van data en het bijhouden van veranderingen is een enorme uitdaging, maar u kunt met tools werken om het proces gemakkelijker te maken. Sommige tools helpen u een datacatalogus op te stellen en anderen ontdekken databronnen. Wat u gebruikt is afhankelijk van uw proces en wat u wilt bereiken. Hier zijn een paar tools om u op weg te helpen:
- Collibra Data Lineage: Vind automatisch databronnen en breng de workflow van bronnen in kaart naar de uiteindelijke opslagbestemming.
- Octopai: Beheer uw datacatalogus en de Metadata die aan elke databron zijn toegewezen.
- Atlan: Breng datapijplijnen in kaart en zorg ervoor dat opslaglocaties en het pijplijnproces voldoen aan de wettelijke vereisten voor naleving.
Best practices voor datalineage
Als uw datalineageproces uit elkaar valt, kunt u databronnen uit het oog verliezen, mogelijk met gevoelige data werken zonder compliant te zijn, of data verliezen wanneer uw pijpleidingen niet langer goed functioneren. Om dataverlies of kostbare nalevingsschendingen te voorkomen, kunt u enkele best practices volgen voor datalineageprocedures. Hier zijn een paar manieren om uw datalineage en -pijplijnen veilig en gedocumenteerd te houden:
- Werk documentatie bij wanneer er wijzigingen zijn in uw pijpleidingen, bestemming of bronnen.
- Audit en log versies van documentatie met informatie over wie deze heeft gewijzigd en wanneer.
- Gebruik automatisering om de levering te versnellen en de risico's van toezicht te verminderen.
- Ontwikkel een naamgevingsconventie die consistent blijft in al uw documentatie.
- Catalogiseer de mensen die verantwoordelijk zijn voor data en de applicaties met behulp van data.
- Beoordeel documentatie jaarlijks om er zeker van te zijn dat deze nog steeds nauwkeurig is.
Uitdagingen en oplossingen
Datalineage is een vorm van auditing, en net als bij elk auditproject kan het uitdagingen met zich meebrengen. De grootste uitdaging voor de meeste auditors is het vinden van databronnen en het in kaart brengen van pijplijnen naar databestemmingen. In een bedrijfsomgeving is het mogelijk om honderden databronnen te hebben. Transformatie van data kan verschillende stappen ondernemen en data kunnen naar databases op locatie of in de cloud worden verzonden. Het kan moeilijk zijn om data te lokaliseren terwijl deze door de datapijplijn beweegt. Ontdekkingstools met artificiële intelligentie helpen bij deze uitdaging, en ontwikkelaars voor datapipelines kunnen helpen bij transformatievragen.
Ontwikkelaars en databasebeheerders brengen vaak wijzigingen aan zonder deze te documenteren. Zonder updates wordt de documentatie over datalijnen verouderd. Het is een uitdaging voor auditors en beheerders om ervoor te zorgen dat de documentatie over datalijnen op de hoogte blijft van wijzigingen in datapipelines. Het werken met belanghebbenden en het opstellen van beleid dat documentatie van ontwikkelaars vereist, helpt dit risico te verminderen. Tools kunnen ook worden gebruikt om wijzigingen te automatiseren en waarschuwingen te sturen wanneer wijzigingen in de datapijplijn worden aangebracht.
Conclusie
Voor compliance en een soepelere overgang wanneer u van datapipeline verandert, kan een datalineageproces elke bron, bestemming en transformatie documenteren die van invloed is op data. Gevoelige data worden bijgehouden, zodat eventuele opslag- en toegangscontroles voldoen aan de nalevingsvereisten. U kunt gebruik maken van Pure Storage unified storage om te helpen met schaalbaarheid en betere documentatie van uw data.