Skip to Content

什麼是資料衛生?

資料衛生是確保資料庫或檔案分享內所有結構化或非結構化資料都“乾淨”的作法,這意味著資料準確、最新、無錯誤。資料衛生又稱為“資料清潔度”和“資料品質”。 

總體而言,資料品質不佳來自於:

  • 資料重複(也稱為資料重複存放):當資料庫內的記錄重複時。 
  • 資料不完整:並非所有記錄的必要資料都存在時。 
  • 資料不一致:當同一資料以不同格式存在於多個表格中時,會導致不同檔案包含相同物件或人員的不同資訊。
  • 資料不準確:當特定物件儲存的資料值不正確時。

為何資料衛生很重要?

資料衛生可推動安全性、生產力、法規與合規性遵從性,以及效率。其作法是確保您的應用程式和業務流程僅使用乾淨、正確且相關的資料,包括移除不再需要的敏感個人資料。如果沒有良好的資料做法,您會追蹤線索和麵包屑,直到死去和做出錯誤決定。 

以下是一些品質不佳的資料在組織中可能造成的問題範例。

銷售與行銷

DiscoverOrg 的一項研究發現,銷售與行銷部門損失了約 550 小時,每位銷售代表使用不良資料損失了高達 32,000 美元。 

在行銷方面,不良資料可能導致超支。如果由於資料重複而多次收到相同的內容,也可能讓潛在客戶感到煩惱,甚至驅逐他們(亦即,相同名稱的重複記錄在同一個資料庫中拼寫有點不同)。

在線上銷售中,如果缺乏產品與目標對象的資料,資料衛生狀況不佳可能導致您嘗試將錯誤的產品銷售給錯誤的客戶。 

金融

在財務報告中,由於資料不一致,不良資料可能會給您不同答案,導致不準確和誤導性的財務報告。這些報告可能會給您帶來錯誤的金融安全感,或是令人擔憂的金融不安全感。

供應鏈

不良資料也會嚴重影響供應鏈,因為如果這些流程決策是基於不可靠的位置資訊,就很難將流程自動化。

整體企業目標

在企業層面上,資料品質問題會大幅影響您達成長期目標的能力。它們可能導致:

  • 對您快速調整並回應新市場趨勢和條件的能力產生負面影響。
  • GDPR、HIPAA 和 CCPA 等主要隱私和資料保護法規的合規性要求更加困難。
  • 在企業資料上難以運用預測式分析,導致短期和長期目標的決策風險較高。

維持良好資料衛生的挑戰

與良好的資料衛生一樣重要,許多公司都努力維持資料的品質。根據哈佛商業評論所發表的一項研究,平均而言,47% 的新建立資料記錄至少有一項重大(例如影響工作)錯誤,而只有 3% 的資料品質分數是以最寬鬆的標準評為“可接受”。 

各種因素都可能使您難以優化資料衛生。包括:

  • 不斷增加的各種資料來源:公司過去僅使用自有業務系統產生的資料,例如銷售或庫存資料。現在,資料來源差異很大,可能包含來自網路、IoT 裝置、科學和實驗資料等的資料集。您擁有的資料來源越多,就越難確保資料不會遭到某種程度的修改或篡改。每當您在資料處理引擎中加入另一個系統時,您都會因為被污染或遺失而增加資料損失的機會,因為不同的資料來源會產生不同的資料類型。非結構化資料,或未根據預設資料模型或架構配置的資訊,現在佔全球資料約 80%。
  • 增加資料量:大數據的時代無庸置疑地在這裡,大數據才是大數據。自 1970 年以來,資料量每三年就翻了一倍。資料越多,就越難在特定時間範圍內收集、清理、整合,並達到合理的高品質資料。如果大部分資料為非結構化資料,處理時間將增加更多,因為非結構化資料需要轉變成結構化或半結構化資料,進一步降低資料處理的品質。
  • 增加資料速度:過去五年來,“即時”資料已成為一個大流行詞。這是因為產生的資料越多,處理資料的速度越快,否則會有系統備份的風險。就這一點而言,資料就像是流進管道的液體,它越快,管道越有破裂的危險,處理容量增加的唯一方法就是讓管道變得更大。對資料而言,讓管道變得更大代表處理速度更快,以達成進來的速度。但實際的即時處理仍然是一個相對較新的領域和能力,這意味著使用未使用或不相關的資料,仍有很多噪音。因此,根據該資料做出的決定,最好是次佳,最差是錯誤的。
  • 缺乏明確的資料品質標準:自 1987 年國際標準化組織(ISO)發佈 ISO 9000 以來,產品品質標準便已開始實施。相較之下,官方資料品質標準從 2011 年起才開始出現(從 ISO 8000 開始),這表示這些標準仍在持續成熟,而且仍然相對較新。根據 2015 年在資料科學期刊上發表的研究,“目前缺乏對大數據品質標準和品質評估方法的全面分析和研究。”

資料衛生最佳實務

雖然資料品質標準仍在成熟中,但您現在仍能採取某些已確立的資料衛生最佳實務,以確保您的資料品質維持高水準。

最佳作法包括:

稽核 

資料稽核是維持良好資料衛生的關鍵,通常是任何資料清理流程的第一步。在採取任何行動之前,您需要評估資料的品質,並建立公司資料衛生的真實基準。典型的資料稽核包括仔細檢視您的 IT 基礎架構和流程,以了解您的資料的居住地、使用方式,以及更新頻率。 

法規遵循

定義蒐集哪些資料及其原因的相關政策至關重要,尤其是如果資料來自消費者。這包括強化資料保留與移除政策。保留時程規定資料在清除前儲存在系統上的時間。衛生是指了解您要儲存哪些資料、為何儲存、在何處儲存,以及何時需要清除資料。深入了解資料法規遵循的最佳做法。

治理

資料治理是一系列流程、角色、政策、標準和指標的集合,確保有效和高效地使用資訊,使組織能夠實現其目標。資料治理定義了誰可以採取什麼行動、對什麼資料、在什麼情況下,以及使用什麼方法。良好的資料管理對於確保整個組織的高品質資料至關重要。 

自動化

最後,實現資料品質相關流程的自動化,是實現良好資料衛生的基礎。這主要意味著盡可能頻繁地自動更新您的資料,以確保資料始終是最新且正確的。資料清理系統可篩選大量資料,並使用演算法偵測異常,並找出人為錯誤造成的異常值。他們也可以刷洗您的資料庫,以取得重複記錄。 

高品質資料是什麼原因?

資料品質包含多項屬性。高品質資料是:

  • 及時:它是建立、維護,並在需要時立即可用。
  • 簡明:其中不含外來資訊。
  • 一致:系統內或系統間的資訊沒有衝突。
  • 準確:正確、精確且為最新狀態。
  • 完成:所有可能的必要資料都存在。
  • 合格者:以適當且標準化的格式儲存。
  • 有效期間:它是真實的,來自已知的權威來源。

如果您的資料符合所有這些標準,您的系統和應用程式將盡可能提供最佳資訊,以推動更好的客戶服務、更好的客戶體驗和更好的業務成果。

使用 Pure Storage 取得同級最佳的資料減量與資料去重功能

重複資料刪除也稱為重複資料刪除,是消除儲存磁碟區或整個儲存系統(跨磁碟區去重複)內重複資料副本的過程。去重複化使用重複排列識別技術辨認出冗餘資料,並將其以同一個已存檔副本之參考資料替代。有了 Purity,Pure Storage 使用五種不同的資料減量技術來節省全快閃陣列的空間。在這裡瞭解更多資訊。

11/2024
Pure Storage FlashArray//C
用經濟實惠的全快閃儲存來整合、加速並保護您的資料
資料文件
4 頁面
聯繫我們
問題或建議

如對Pure的產品或認證,有任何的疑問或建議,歡迎與我們聯繫!

預約試用

預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。 

聯絡我們:886-2-3725-7989

媒體:pr@purestorage.com

 

Pure Storage總部

34F, Taipei Nanshan Plaza,

No. 100, Songren Road,

Xinyi District,

Taipei City 110016

Taiwan (R.O.C.)

800-379-7873 (一般資訊)

info@purestorage.com

關閉
您的瀏覽器已不受支援!

較舊版的瀏覽器通常存在安全風險。為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。