複数のデータ・パイプラインが存在する場合は、データの出所、データの変換手順、保存場所を把握する必要があります。データ・リネージの追跡ソリューションを導入することで、データの保護が向上し、機密データの変更を追跡できます。ほとんどのビジネスでは、データ・パイプラインやデータ・リネージの詳細をドキュメントで説明していますが、ソフトウェア・ツールにより、データの変更の監視やドキュメント作成が容易になります。
データ・リネージとは?
データ・リネージ(データの系統)は、通常、データやデータの変更をより適切に管理するために使用されるドキュメントの形で表されます。データの保存場所についてもドキュメント化し、現地の規制に準拠する方法でデータが保存されていることを企業が認識できるようにしています。エンタープライズ・データ・パイプラインでは、未加工データを複数のソース(Web サイトや内部フラット・ファイルなど)から抽出し、構造化データベースやデータ分析用の非構造化データベースに格納するために変換することができます。データ・リネージのドキュメントは、データがどこから抽出され、どのような変更が加えられたかを詳細に示します。
データの変更、ソース、最終的な保管場所をドキュメント化することで、パイプラインが期待どおりに機能し、エラーをより迅速に修正できます。例えば、データソースの構造が変更された場合、データ・パイプラインは電話番号に変更を加え、不正確な番号が最終的な保存先に格納されるのを防ぎます。データ・リネージのドキュメントにより、開発者はエラーの発生箇所をより迅速に特定できます。
データ・リネージのメリット
機密データは、特定のセキュリティ基準を使用して保存する必要があります。データ・アクセス時のログ記録は、必須です。データ・リネージのドキュメントは、より良いコンプライアンス結果を保証し、あらゆる監査手続きで使用することができます。コンプライアンスは、データ・リネージの重要なメリットの 1 つです。
データ変換、ソース抽出、ストレージの最終目的地の段階をドキュメント化することで、トラブルシューティングの効率化にもつながります。開発者は、データ変換のあらゆるステップを把握することで、コードを検証し、エラーをより迅速に特定できます。データを顧客対応アプリケーションで使用すると、開発者はデータの保存場所をより迅速に特定できます。データ統合はより効率的で、データ・リネージに関するドキュメントを作成することで、アプリケーション開発中にデータの完全性を失うリスクを低減します。
データ・リネージの実装
簡単なプロジェクトのように思えるかもしれませんが、エンタープライズ・ティア・アプリケーションにとっては、データ・リネージの実装は大きな課題となります。関係者全員が関与する必要があり、データ・リネージをドキュメント化するために必要な全ての情報を収集するのに数か月かかる場合があります。データ・リネージ・プロセスの基本ステップを以下に示します。
- 関係者に話を聞き、職務で使用するアプリケーションを理解します。
- アプリケーションのデータソースについて開発者と話し合います。
- データ・カタログのメタデータを決定します。
- メタデータを使用してデータ・カタログを作成します。
- 新しいデータ・リネージの追跡を定義します。
- 追跡手順をドキュメント化します。
- 将来のデータ変更に対するガバナンスを確立し、ドキュメントを最新の状態に保ちます。
- 関係者と変更について話し合います。
- データ・リネージの追跡を監視し、必要に応じて変更します。
データの検出と変更の追跡は大きな課題ですが、ツールを使用してプロセスを容易にすることができます。データ・カタログの作成に役立つツールや、データソースの発見に役立つツールもあります。何を使用するかは、プロセスと達成したいことによって異なります。ここではいくつかのツールをご紹介します。
- Collibra Data Lineage:データソースを自動的に検索し、ソースから最終的な保存先までのワークフローをマッピングします。
- Octopai:データ・カタログと各データソースにマッピングされたメタデータを管理します。
- Atlan:データ・パイプラインをマッピングし、ストレージの場所とパイプライン・プロセスがコンプライアンスの規制要件に準拠していることを確認します。
データ・リネージのベストプラクティス
データ・リネージのプロセスが崩壊すると、データソースの追跡が失われたり、機密データが準拠せずに処理されたり、パイプラインが正常に機能しなくなったときにデータが失われたりする可能性があります。データ損失やコストのかかるコンプライアンス違反を避けるため、データ・リネージの手順に関するベストプラクティスに従うことができます。データ・リネージとパイプラインをセキュアに、ドキュメント化する方法をいくつかご紹介します。
- パイプライン、宛先、ソースに変更があった場合は、ドキュメントを更新します。
- ドキュメントのバージョンを監査し、いつ誰が変更したかをログに残します。
- 自動化により、配信を高速化し、監視のリスクを低減します。
- 全てのドキュメントで一貫性を保つ命名規則を作成します。
- データやデータを使用するアプリケーションの責任者をカタログにまとめます。
- ドキュメントが正確であることを確認するため、年に一度レビューします。
課題とソリューション
データ・リネージは監査の一形態であり、他の監査プロジェクトと同様に、課題を伴う可能性があります。ほとんどの監査人にとって最大の課題は、データソースを見つけ、パイプラインをデータの送信先にマッピングすることです。エンタープライズ環境では、何百ものデータソースを持つことができます。データの変換にはいくつかのステップが必要となり、データはオンサイトのデータベースやクラウドに送信される可能性があります。データ・パイプライン内を移動するため、データの特定が困難になる場合があります。人工知能による発見ツールは、この課題を解決し、データ・パイプラインの開発者は、変換に関する疑問を解決できます。
開発者やデータベース管理者は、多くの場合、ドキュメント化せずに変更を行います。更新がなければ、データ・リネージのドキュメントは古くなります。監査人や管理者にとって、データ・リネージのドキュメントがデータ・パイプラインの変更に遅れないようにするのは困難です。ステークホルダーと協力し、開発者によるドキュメント化を必要とするポリシーを作成することは、このリスクを軽減するのに役立ちます。また、変更を自動化し、データ・パイプラインに変更があった場合にアラートを送信するツールも利用できます。
まとめ
データ・パイプラインの変更時にコンプライアンスとスムーズな移行を実現するため、データ・リネージ・プロセスでは、データに影響を与えるソース、宛先、変換を全てドキュメント化できます。機密データを追跡し、ストレージとアクセス制御がコンプライアンス要件に従うようにします。ピュア・ストレージの統合ストレージは、データのスケーラビリティとドキュメント化の改善に役立ちます。