Skip to Content

Was ist Data Lineage?

Wenn Sie mehrere Datenpipelines haben, müssen Sie wissen, woher Daten stammen, welche Schritte unternommen wurden, um sie zu transformieren und wo sie gespeichert werden. Eine Tracking-Lösung für Data Lineage bietet einen besseren Schutz von Daten und hilft Unternehmen, Änderungen an sensiblen Daten zu verfolgen. Die meisten Unternehmen verwenden Dokumentation, um Datenpipelines und Data Lineage detailliert zu beschreiben, aber Softwaretools erleichtern die Überwachung und Dokumentation von Änderungen an Ihren Daten.

Was ist eine Data Lineage?

Data Lineage erfolgt in der Regel in Form einer Dokumentation, die verwendet wird, um Daten und Änderungen daran besser zu verwalten. Wo Daten gespeichert werden, wird auch dokumentiert, sodass Unternehmen wissen, dass Daten auf eine Weise gespeichert werden, die den lokalen Vorschriften entspricht. In einer Unternehmensdatenpipeline können Rohdaten aus mehreren Quellen (z. B. Websites und internen Flatfiles) extrahiert und transformiert werden, um sie in einer strukturierten Datenbank oder einer unstrukturierten Datenbank für Datenanalysen zu speichern. Die Dokumentation zu Data Lineage beschreibt, wo Daten extrahiert und welche Änderungen daran vorgenommen werden.

Die Dokumentation von Datenänderungen, Quellen und dem endgültigen Speicherort stellt sicher, dass Pipelines wie erwartet funktionieren und Fehler schneller behoben werden können. Beispielsweise kann die Datenquelle ihre Struktur ändern, sodass die Datenpipeline Änderungen an einer Telefonnummer vornimmt, bei der falsche Nummern am endgültigen Ziel gespeichert sind. Die Dokumentation der Data Lineage hilft Entwicklern, schneller zu erkennen, wo die Fehler auftreten.

Vorteile der Data Lineage

Sensible Daten müssen nach bestimmten Sicherheitsstandards gespeichert werden. Die Protokollierung muss beim Datenzugriff erfolgen. Ein Dokument zur Datenabstammung sorgt für bessere Ergebnisse für die Compliance und kann bei allen Prüfverfahren verwendet werden. Compliance ist nur ein wichtiger Vorteil der Data Lineage.

Die Dokumentation der Phasen der Datentransformation, der Quellenextraktion und des endgültigen Ziels für den Storage macht die Fehlerbehebung auch effizienter. Wenn Entwickler jeden Schritt der Datentransformation kennen, können sie den Code validieren und Fehler schneller erkennen. Wenn Daten in kundenorientierten Anwendungen verwendet werden, können Entwickler schneller erkennen, wo Daten gespeichert werden. Jede Datenintegration ist effizienter, und die Dokumentation für die Datenlinie verringert das Risiko, die Datenintegrität während der Anwendungsentwicklung zu verlieren.

Implementierung der Data Lineage

Es mag wie ein einfaches Projekt erscheinen, aber die Implementierung von Data Lineage kann eine große Herausforderung für Anwendungen auf Unternehmensebene darstellen. Jeder Stakeholder muss einbezogen werden, und es kann Monate dauern, bis alle erforderlichen Informationen gesammelt werden, um die Data Lineage zu dokumentieren. Hier sind die grundlegenden Schritte für den Data Lineage-Prozess:

  1. Sprechen Sie mit den Stakeholdern, um die Anwendung zu verstehen, die für ihre Arbeitsfunktion verwendet wird.
  2. Diskutieren Sie Anwendungsdatenquellen mit Entwicklern.
  3. Bestimmen Sie Metadaten für Ihren Datenkatalog.
  4. Erstellen Sie einen Datenkatalog mit Metadaten.
  5. Definieren Sie das Tracking neuer Datenlinien.
  6. Verfahren zur Dokumentverfolgung.
  7. Stellen Sie eine Governance über zukünftige Datenänderungen her, um sicherzustellen, dass die Dokumentation auf dem neuesten Stand bleibt.
  8. Besprechen Sie Änderungen mit den Stakeholdern.
  9. Überwachen Sie die Nachverfolgung der Datenlinie und ändern Sie sie bei Bedarf.

Das Erkennen von Daten und das Verfolgen von Änderungen ist eine große Herausforderung, aber Sie können mit Tools arbeiten, um den Prozess zu vereinfachen. Einige Tools helfen Ihnen bei der Erstellung eines Datenkatalogs und andere entdecken Datenquellen. Was Sie verwenden, hängt von Ihrem Prozess und davon ab, was Sie erreichen möchten. Hier sind einige Tools, mit denen Sie loslegen können:

  • Collibra-Data Lineage: Suchen Sie automatisch Datenquellen und ordnen Sie den Workflow von Quellen zum endgültigen Storage-Ziel zu.
  • Octopai: Verwalten Sie Ihren Datenkatalog und die Metadaten, die jeder Datenquelle Metadaten zugeordnet sind.
  • Atlan: Ordnen Sie Datenpipelines zu und stellen Sie sicher, dass die Speicherorte und der Pipeline-Prozess den gesetzlichen Compliance-Anforderungen entsprechen.

Best Practices für die Data Lineage

Wenn Ihr Data Lineage-Prozess auseinanderfällt, könnten Sie den Überblick über Datenquellen verlieren, möglicherweise mit sensiblen Daten arbeiten, ohne konform zu sein, oder Daten verlieren, wenn Ihre Pipelines nicht mehr ordnungsgemäß funktionieren. Um Datenverluste oder kostspielige Compliance-Verstöße zu vermeiden, können Sie einige Best Practices für Verfahren zu Data Lineage befolgen. Hier sind einige Möglichkeiten, Ihre Data Lineage und Pipelines sicher und dokumentiert zu halten:

  • Aktualisieren Sie die Dokumentation, wenn sich Ihre Pipelines, Ihr Ziel oder Ihre Quellen ändern.
  • Prüfen und protokollieren Sie Versionen der Dokumentation mit Informationen darüber, wer sie wann geändert hat.
  • Nutzen Sie Automatisierung, um die Bereitstellung zu beschleunigen und die Risiken von Aufsichtsvorgängen zu senken.
  • Entwickeln Sie eine Namenskonvention, die in Ihrer gesamten Dokumentation konsistent bleibt.
  • Katalogisieren Sie die für Daten und die Anwendungen verantwortlichen Personen mithilfe von Daten.
  • Überprüfen Sie die Dokumentation jährlich, um sicherzustellen, dass sie immer noch korrekt ist.

Herausforderungen und Lösungen

Data Lineage ist eine Form der Prüfung, und wie bei jedem Prüfprojekt kann sie Herausforderungen mit sich bringen. Die größte Herausforderung für die meisten Auditoren besteht darin, Datenquellen zu finden und Pipelines an Datenziele zuzuordnen. In einer Unternehmensumgebung können Hunderte von Datenquellen vorhanden sein. Die Transformation von Daten kann mehrere Schritte in Anspruch nehmen und Daten könnten an lokale Datenbanken oder in der Cloud gesendet werden. Es kann schwierig sein, Daten zu lokalisieren, wenn sie durch die Datenpipeline geleitet werden. Discovery-Tools mit künstlicher Intelligenz helfen bei dieser Herausforderung, und Entwickler für Datenpipelines können bei Transformationsfragen helfen.

Entwickler und Datenbankadministratoren nehmen häufig Änderungen vor, ohne sie zu dokumentieren. Ohne Updates wird die Dokumentation der Datenabstammung veraltet. Für Auditoren und Administratoren ist es schwierig, sicherzustellen, dass die Dokumentation der Data Lineage über Änderungen an Datenpipelines auf dem Laufenden bleibt. Die Zusammenarbeit mit Stakeholdern und die Erstellung von Richtlinien, die von Entwicklern dokumentiert werden müssen, trägt dazu bei, dieses Risiko zu verringern. Außerdem können Tools verwendet werden, um Änderungen zu automatisieren und Warnungen zu senden, wenn Änderungen an der Datenpipeline vorgenommen werden.

Fazit

Für Compliance und einen reibungsloseren Übergang beim Ändern von Datenpipelines kann ein Data Lineage-Prozess jede Quelle, jedes Ziel und jede Transformation dokumentieren, die sich auf Daten auswirkt. Sensible Daten werden verfolgt, sodass alle Storage- und Zugriffskontrollen den Compliance-Anforderungen entsprechen. Sie können einheitlichen Storage von Pure Storage nutzen, um bei der Skalierbarkeit und einer besseren Dokumentation Ihrer Daten zu helfen.

03/2025
Automating Distribution Centers with All-Flash
Discover why Carozzi chose Pure Storage to meet the data demands of automating its distribution center with automated guided vehicles.
Kundenberichte
3 pages
KONTAKTIEREN SIE UNS
Pure kontaktierenInfosymbol
Chatsymbol
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?  Wir helfen Ihnen gerne!

Schlüsselsymbol
Termin für Demo vereinbaren

Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln. 

Rufen Sie uns an: +49 89 26200662
Presse:
 pr@purestorage.com

 

Pure Storage Germany GmbH

Mies-van-der-Rohe-Straße 6

80807 München

Deutschland

info@purestorage.com

SCHLIESSEN
SchließenX-Symbol zum Schließen
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.