儲存資料去重複是管理資料負載的基礎技術,幫助各種類型的使用者節省空間,並更快速地執行備份。在本文中,我們探討了儲存設備中的重複資料刪除、為何它很重要、如何運作,以及不同類型的重複資料刪除流程。
什麼是資料去重複、重複資料刪除(主要)?
重複資料刪除是消除多餘資料副本的過程。這是一種資料儲存最佳化技術,可透過移除資料集內非唯一的資料區段來釋放資源。
為什麼資料去重複、重複資料刪除(主要)很重要?
隨著資料驅動的營運與數位工作場所的興起,各種組織都在管理與使用更多資料,以及從更多端點傳送與傳送資料。
隨著時間的推移,隨著組織進行日常營運,重複、不獨特的資料在儲存系統內可能會累積。當您需要為災害復原、高可用性和資料保護等目的維持一些有意的備援時,這種備援資料會進一步複合。
重複資料會佔用儲存空間,而這些空間可以重新用於處理不斷增加的資料量,而現代組織必須應付這些需求。移除重複資料,您不需購買額外容量,即可釋放空間,以滿足不斷增長的資料需求。
換句話說,投資可靠的重複資料刪除功能,可以直接節省儲存成本。重複資料刪除是協助組織以最有效率、簡化和成本敏感的方式應對資料挑戰的基礎流程。
資料去重複、重複資料刪除的主要益處是什麼?
最明顯的好處是需要的儲存空間較小。對於擁有龐大資料集的大型組織來說,這可以節省大量成本,但其效益遠遠超出預算。透過重複資料刪除功能,備份可以更快速執行,且不需要運算和儲存資源。使用者可以更快地存取資料,並減少因重複和衝突而產生的錯誤。
值得一提的是,每當資料被存取或移動時,資料資產的支出會不斷產生。相反地,執行一次重複資料刪除的好處,將在未來繼續帶來效益。
重複資料刪除是讓運算運作更順暢的基礎技術,這也是為何它內建於許多系統中,並依預設執行。
重複資料刪除如何運作?
雖然,重複資料刪除的核心是移除整個資料集的非獨特資料實例,但有一些技術上的細微差別值得調查,了解重複資料刪除的運作方式。
檔案層級重複資料刪除
檔案層級的重複資料刪除需要刪除重複檔案。系統確保檔案副本僅儲存一次,將其他參考資料連結到第一個檔案。
檔案層級重複資料刪除的熟悉範例是儲存備份流程。預設情況下,大多數備份程式會比較來源和目標磁碟區的檔案中繼資料,並只用更新後的修改歷史記錄重寫這些檔案,讓其他檔案都只保留。此外,使用者通常可以選擇從儲存位置清除來源中遺漏的任何檔案。
在企業資料環境中,匯入或合併檔案或最佳化儲存時,會使用類似的程序。檔案集會進行掃描,並與索引進行比較,非唯一的檔案會儲存一次,並且只連結原始位置。
因此,流程會更快,因為系統複製的檔案較少,而儲存空間則透過刪除的檔案而得以儲存。
區塊層級重複資料刪除
重複資料刪除也可在區塊層級執行,例如在資料庫或檔案上執行。在這種情況下,系統會將資訊分成固定大小的資料區段,稱為區塊,並儲存每個區段的獨特迭代。每一件產品都會產生一個獨特的編號,並儲存在索引中。當檔案更新時,而非寫入全新的檔案,只會儲存變更後的資料。因此,區塊重複資料刪除比檔案重複資料刪除更有效率。
然而,區塊重複資料刪除需要更多處理能力,需要更大的索引來追蹤個別物件。可變長度去重複資料刪除是一種使用不同大小區段的替代方法,去重複資料刪除系統可用以實現比固定長度區塊更好的資料減量比率。
線上與後處理重複資料刪除
視使用案例而定,重複資料刪除可以在線內執行,也就是在資料首次導入或匯入時。如此可降低初始儲存空間,但處理過程可能會遇到瓶頸。因為線內資料去重複可能消耗運算能力,不建議將此方法與日常使用的儲存裝置搭配使用。
相反地,重複資料刪除可作為後處理追溯進行。使用這種方法,多餘的資料在攝入後被移除。這種方法的優點是操作可以在非上班時間或使用者指定的時間進行。此外,使用者可以引導系統刪除特定工作負載所需的重複檔案或資料。後處理重複資料刪除功能可提供更多彈性,但也需要比線內資料去重複功能更大的可用資料儲存容量。
資料去重複、重複資料刪除(主要). 壓縮 vs. 精簡配置
重複資料刪除通常與壓縮和儲存資源隨需配置比較或混合,這是減少儲存量的另外兩種方法。雖然重複資料刪除功能可消除並減少檔案數量或資料量,但壓縮使用演算法來減少記錄資料所需的位元數。
精簡配置是一種從網路的其他來源採購儲存或運算資源的技術,例如其他終端使用者。如此一來,現有資源即可最大化,整體需求較少,效率也會提升。
什麼是 Veeam 重複資料刪除?
Veeam Software 是位於美國的開發人員,專門為虛擬、雲端原生、SaaS、Kubernetes 和實體工作負載提供備份、災害復原和現代化資料保護軟體。Veeam Backup & Replication 將壓縮與重複資料刪除相結合,以最大限度地節省整個系統的儲存成本。
什麼是 NTFS 重複資料刪除?
新技術檔案系統 (NTFS) 是由 Microsoft 開發的專有日誌檔案系統。NTFS 去重複資料刪除功能可省去儲存過多資料的需求,大幅增加可用儲存容量。
Pure Storage 提供同級最佳的資料減量功能
重複資料刪除只是資料減量的難題之一。FlashArray 的 Purity Reduce 不僅擁有高效能線內資料去重複流程,並具有 4KB-32KB 的可變區塊大小,還能運用模式移除、線內壓縮、深度縮減和複製縮減等功能,提供快閃記憶體儲存產業中最精細、最完整的資料減量比率。了解為何使用 Pure Storage® FlashArray 進行重複資料刪除是不同的。