ピュア・ナレッジ
データ重複排除とは

データ重複排除とは

※このページの内容が日本語である場合は、機械翻訳システムで翻訳したものです。

企業は、増え続けるデータを保存・管理し、AIやビッグデータなどの技術を活用して、市場の姿勢を改善し、重要なビジネス上の意思決定を行う必要があります。データ・ストレージの需要が高まっているため、コストと使用量を考慮しながらストレージ・リソースを最適に利用する効率的なメカニズムが必要です。さまざまなソースからデータを収集することで、重複したエントリが発生することが多く、不要なストレージ消費につながります。

ストレージ・システムに重複データが存在することで、ストレージの効率性を向上させる機会が得られます。これにより、データの冗長性を低減し、ストレージの最適化を強化する技術であるデータ重複排除が導入されました。重複するデータを排除することで、ストレージ容量を最大化し、コストを削減し、全体的なデータ管理を改善できます。

データ重複排除とは

データ重複排除は、データの重複コピーを排除し、ストレージ使用率を最適化するために使用されるデータ圧縮技術です。重複するデータブロックやファイルを特定して削除することで、必要なストレージ容量を大幅に削減し、コスト削減とシステム性能の向上につながります。データ駆動型プロセスへの依存が高まっているなか、データの重複排除はデータ管理戦略の不可欠な要素となっています。

データ重複排除の概念は、多くのデータセット、特にエンタープライズ環境において、情報の複製コピーが多数存在するという観察に基づいています。例えば、複数の従業員が同じ電子メールの添付ファイルを保存したり、バックアップ・システムが同じファイルを繰り返し保存したりする場合があります。データの一意のインスタンスを 1 つだけ格納することで、重複排除によってストレージ要件を大幅に削減できます。

データ重複排除の種類

データ重複排除は、異なるレベルで実装することができ、各方法には異なる特性とユースケースがあります。

ファイルレベルの重複排除：この方法では、ファイル全体を比較し、重複を検出します。ファイルが既存のファイルと同一であることが判明した場合、ファイルは再度保存されません。ファイルレベルの重複排除は実装が簡単ですが、ファイルの一部だけが冗長である場合は有効ではない場合があります。
ブロックレベルの重複排除：ここで、データはより小さなブロックに分割され、各ブロックは冗長性について分析されます。このアプローチは、ファイル内の重複データを識別できるため、より効率的です。したがって、ストレージの節約につながります。
バイトレベルの重複排除：バイトレベルの重複排除は、重複排除の最もきめ細かい形態であり、重複シーケンスを識別するためにバイトレベルでデータを調べます。このアプローチは、データ削減の可能性が最も高いものの、より多くの計算リソースを必要とします。
インラインおよびポストプロセス重複排除：
- インライン重複排除は、データがストレージに書き込まれるときにリアルタイムで発生します。これにより、ストレージの節約が即座に実現しますが、処理オーバーヘッドによりシステム性能に影響を与える可能性があります。
- ポストプロセス重複排除は、データがストレージに書き込まれた後に発生します。これにより、データ書き込み中のシステム性能への影響は軽減されますが、ストレージの節約は後で実現されます。

データ重複排除の仕組み

データ重複排除は、反復パターンのデータを調べ、各一意のブロックまたはファイルのコピーを 1 つだけ保存することで機能します。重複が検出されると、元のデータへの参照またはポインタに置き換えられます。このプロセスは、インデックス作成、フィンガープリンティング、比較技術によってサポートされ、同一のデータ・セグメントを正確に識別できます。

インデックス：データを保存する前に、既存のデータブロックのマップを作成するようにインデックスが付けられます。このインデックスは、特定のデータが既にシステムに存在するかどうかを判断するのに役立ちます。
フィンガープリント：各データブロックは、ハッシュ関数を使用して、指紋またはハッシュ値として知られる一意の識別子を生成します。一般的なアルゴリズムには、データのデジタル署名を作成する MD5 や SHA-1 などがあります。
比較：受信データのハッシュ値は、既に保存されたデータのハッシュ値と比較されます。一致が検出されると、システムは重複として認識し、元のデータへの参照のみが保存されます。
ストレージまたはリファレンスの作成：比較後、データが一意である場合、データは完全に保存され、重複は元のデータへの参照に置き換えられます。

このプロセスを説明する簡単な例を考えてみましょう。

1MB のファイルを 3 つ保存する必要があるとします。

ファイル A：データ「ABCDEFG」を含む
ファイル B：データ「ABCDEFG」を含む
ファイル C：データ「ABCDEFX」を含む

これらのファイルは重複排除なしで 3MB のストレージを占有します。ただし、重複排除では、

ファイル A は正常に保存され、1MB を占めます。
ファイル B を処理すると、システムはファイル A と同一であると認識します。別の 1MB を保存する代わりに、ファイル A へのポインタを作成します。
ファイル C では、最後のバイトを除き、ほとんどがファイル A と同一であることを認識します。固有バイト「X」のみを格納し、残りの部分についてはファイル A への参照を作成します。

その結果、ストレージ使用量が 3MB から 1MB に大幅に削減されました。

データ重複排除のメリット

データ重複排除は、データ管理を改善し、システム・リソースを最適化するさまざまなメリットをもたらします。

ストレージ・コストの削減：重複排除は、冗長なデータを排除することで、必要なストレージ量を削減し、大幅なコスト削減につながります。これは、データ量の多い組織にとって特に有益です。
バックアップとリカバリの高速化：格納するデータが少ないため、バックアップ・プロセスが高速化し、リカバリ時間が短縮されます。これにより、事業継続性が向上し、ダウンタイムが最小限に抑えられます。
データ効率の向上：データ重複排除により、ストレージ・インフラの効率的な使用が可能になり、物理ストレージ容量を拡張することなく、より多くの論理データを保存できます。
データ管理の強化：重複排除により、データの管理が容易になり、インデックス作成、検索、保守が必要なデータの総量が削減されます。
ネットワーク効率の向上：分散システムでは、重複排除により重複データの転送が排除され、帯域幅の使用が最適化されるため、ネットワーク・トラフィックが減少します。
データ品質の向上：重複を特定して排除することで、重複排除はデータの全体的な一貫性を向上させることができます。

データ重複排除の実装

データ重複排除を成功に導くには、以下のようなさまざまな要素を考慮しながら、プロセスを慎重に評価し、計画する必要があります。

ストレージ環境の評価：環境内のデータとワークロードの種類を理解する。重複排除は、仮想マシンイメージ、電子メールアーカイブ、非構造化データなどの特定のデータ・タイプに特に効果的です。データベースや既に圧縮されているファイルでは、効果が低い場合があります。
適切な重複排除方法を選択してください。特定のニーズやユースケースに応じて、ファイルレベル、ブロックレベル、インライン、またはポストプロセス重複排除のいずれかを選択します。例えば、リアルタイムのストレージ要件はインライン重複排除を優先する場合があり、後処理はデータ処理速度が懸念される環境に適している場合があります。
ハードウェアとソフトウェアの設定を最適化：重複排除ソリューションによっては、大規模なデータ環境を効率的に処理するためにハードウェアの高速化が必要になる場合があります。ソフトウェア構成を調整し、重複排除性能とシステム負荷のバランスを調整し、最適な結果を実現します。
定期的な監視と管理：重複排除プロセスの有効性を評価し、必要に応じて調整するには、継続的な監視が不可欠です。重複排除率、処理速度、ストレージの節約を定期的に確認し、データパターンやシステム性能の変化に応じて調整できるように準備します。

データ重複排除の課題と限界

データ重複排除は大きなメリットをもたらしますが、課題はありません。データ重複排除の課題には、次のようなものがあります。

処理オーバーヘッド：重複排除には、重複を比較して排除するための計算リソースが必要です。重複排除は、システムの性能に影響を与える可能性があります。特にインライン重複排除では、高い処理要求により、データ書き込み速度が遅くなることがあります。
断片化の問題：重複排除は、データを小さなセグメントに分割し、データの断片化を増大させ、データの取得を遅らせる可能性があります。断片化に対処するには、データの再組み立て手順を追加する必要があり、パフォーマンスに影響を与える場合があります。
暗号化または圧縮されたデータの有効性：重複排除は、データが既に圧縮または暗号化されている場合には効果が低くなります。これらのプロセスはデータパターンを変更し、重複の特定が困難になるためです。
データの完全性とリストアの課題：1 つのブロックが複数のファイルによって参照される可能性があるため、破損後のデータの復元は困難です。堅牢なデータ整合性チェックとリカバリ・プロセスが不可欠です。

これらの課題を緩和するために、以下のことが可能です。

ハイブリッド・アプローチの活用：インライン重複排除とポストプロセス重複排除を組み合わせることで、リアルタイムのストレージ節約とシステム性能のバランスを取ることができます。例えば、重要でないデータは、重複排除された後処理によってプライマリ・ストレージ・システムの負荷を軽減できます。
ハードウェアの高速化：ハードウェア・アクセラレーションを内蔵した重複排除アプライアンスを展開することで、メイン・システムから処理をオフロードし、性能への影響を軽減できます。
データ再水和技術の導入：データの再水和には、重複排除されたデータを処理に必要なときに元の状態にリストアし、データ取得時間に対する断片化の影響を最小限に抑えることが含まれます。
データ・タイプの適合性を考慮してください。重複排除は、バックアップ・ファイル、仮想マシン・イメージ、ドキュメントなどの特定のデータ・タイプに対してより効果的です。圧縮メディア・ファイルなどの重複排除に適さないデータ・タイプを特定することは、重複排除戦略の最適化に役立ちます。

まとめ

データ重複排除は、ストレージ要件を削減し、データ管理を改善することで、モダン・データ・ストレージ戦略において重要な役割を果たします。エンタープライズ・データセンターからクラウド・ストレージ環境まで、さまざまなニーズに対応できる汎用性の高いソリューションです。適切な重複排除方法を選択し、性能を監視し、軽減戦略を採用することで、ストレージ・インフラを最適化し、コストを削減し、システムの効率を向上させることができます。データ量の増加に伴い、データ重複排除は、ストレージへの投資価値の最大化をめざす企業にとって不可欠なツールとなっています。

FlashArray の Purity Reduce は、可変ブロックサイズが 4KB-32KB の高性能インライン重複排除プロセスを備えています。また、パターン除去、インライン圧縮、ディープ削減、コピー削減を活用し、フラッシュ・ストレージ業界で最もきめ細かく、完全なデータ削減率を実現します。ピュア・ストレージの FlashArray によるデータ重複排除の違いをご覧ください。