當您有多個資料管道時,您需要知道資料來自何處、採取了哪些步驟來轉型,以及資料儲存在何處。擁有資料譜系追蹤解決方案,可更好地保護資料,並幫助企業追蹤敏感資料的變化。大多數企業都使用文件來詳述資料管道和資料譜系,但軟體工具能更輕鬆地監控並記錄資料的變化。
什麼是資料譜系?
資料譜系通常採用文件形式,用於更好地管理資料和變更。儲存資料的位置也會記錄下來,讓企業知道資料是以符合當地法規的方式儲存。在企業資料管道中,原始資料可以從多個來源(例如網站和內部平面檔案)中擷取,並加以轉換,以將其儲存在結構化資料庫或非結構化資料庫中,以進行資料分析。資料譜系文件詳細資料,包括資料擷取地點及其變更。
記錄資料變更、來源和最終儲存位置,可確保管道如預期般運作,並可更快速地修正任何錯誤。例如,資料來源可能改變其結構,因此資料管道會變更電話號碼,將不正確的號碼儲存在最終目的地。擁有資料譜系文件有助於開發人員更快速地識別錯誤發生的位置。
資料譜系的優勢
敏感資料必須使用特定安全標準儲存。記錄必須在資料存取時完成。資料譜系文件可確保更佳的合規性結果,並可用於任何稽核程序。合規性只是資料譜系的一個重要優勢。
記錄資料轉換階段、來源擷取和儲存的最終目的地,也讓故障排除更有效率。當開發人員知道資料轉換的每個步驟時,他們就能驗證程式碼,並更快速地找出任何錯誤。當資料用於面向客戶的應用程式時,開發人員可以更快速地識別資料儲存的位置。任何資料整合都更有效率,而且擁有資料譜系的文件,可降低應用程式開發期間資料完整性損失的風險。
實施資料譜系
這似乎是一個簡單的專案,但對企業級應用程式而言,實施資料譜系可能是一項巨大的挑戰。每位利害關係人都必須參與其中,而且收集所有必要資訊以記錄資料譜系可能需要數個月的時間。以下是資料譜系流程的基本步驟:
- 與利害關係人討論,了解其工作職能所使用的應用程式。
- 與開發人員討論應用程式資料來源。
- 判斷資料目錄的中繼資料。
- 使用中繼資料建立資料目錄。
- 定義新的資料譜系追蹤。
- 文件追蹤程序。
- 建立對未來資料變更的治理,以確保文件保持最新狀態。
- 與利害關係人討論變革。
- 監控資料譜系追蹤,並在必要時進行變更。
資料發現和追蹤變更是一項巨大的挑戰,但您可以使用工具讓流程更輕鬆。有些工具可協助您建立資料目錄,而其他工具則能找出資料來源。您的使用方式取決於您的流程,以及您想達成的目標。以下是一些工具,幫助您開始:
- Collibra 資料譜系:自動尋找資料來源,並將工作流程從來源映射到最終儲存目的地。
- 八達通:管理您的資料目錄和對應至每個資料來源的中繼資料。
- Atlan:規劃資料管道,並確保儲存位置和管道流程遵循法規要求,以符合法規要求。
資料譜系的最佳做法
如果您的資料譜系流程中斷,您可能會失去對資料來源的追蹤,可能在不合規的情況下使用敏感資料,或在管線不再正常運作時遺失資料。為了避免資料遺失或違反高昂的法規遵循規定,您可以遵循一些資料譜系程序的最佳作法。以下提供幾種方法,確保您的資料譜系和管道的安全,並記錄在案:
- 當您的管道、目的地或來源有任何變更時,請更新文件。
- 稽核並記錄文件版本,以及變更者與時間的相關資訊。
- 使用自動化來加速交付並降低監督風險。
- 制定命名慣例,在所有文件中保持一致。
- 使用資料為負責資料和應用程式的人員編製目錄。
- 每年審查文件,確保文件仍準確無誤。
挑戰與解決方案
資料譜系是一種稽核形式,如同任何稽核專案一樣,它都可能面臨挑戰。對大多數稽核人員而言,最大的挑戰是找出資料來源,並找出資料目的地的對應管道。在企業環境中,可能有數百個資料來源。資料轉換可能要採取幾個步驟,而且資料可以傳送到現場資料庫或雲端。在資料流經資料管道時,要找到資料可能很困難。人工智慧的探索工具有助於解決這項挑戰,而資料管道的開發人員也能夠協助解決轉型問題。
開發人員和資料庫管理員經常在不記錄的情況下進行變更。如果沒有更新,資料譜系文件就會過期。審計人員和管理員很難確保資料譜系文件與資料管道的變化保持最新狀態。與利害關係人合作並建立需要開發人員文件的政策,有助於降低這種風險。此外,工具也可用於協助自動化變更,並在資料管道進行變更時傳送警示。
結論
為了符合規範,並在您變更資料管道時實現更順暢的轉換,資料譜系流程可以記錄每個影響資料的來源、目的地和轉換。追蹤敏感資料,以便任何儲存和存取控制都遵循合規性要求。您可以運用 Pure Storage 整合式儲存,協助您達成可擴充性,並取得更佳的資料文件。