データ・ウェアハウスの仕組み
有益な情報を抽出するために社内の各部門からデータを収集するロジスティクスは、ビジネスの成長とともに複雑になります。データ・ウェアハウスは、その情報を単一のデータベースおよびデータモデルに集約し、アナリストによるクエリの実行を可能にする信頼性の高い方法を提供します。
仕組みの概要:
- 抽出:ERP、CRM、営業、マーケティング部門など、組織内のさまざまなソースから未加工データをステージング・データベースに集約
- 変換:ステージング・レイヤーのデータを統合レイヤーに転送し、そこでデータを結合してオペレーショナル・データ・ストア(ODS)に変換
- ロード:アナリストが SQL クエリに使用するスキーマを定義することで、データを統合レイヤーからデータ・ウェアハウスに移動した後、リレーショナル・データベースに書き込み(スキーマ・オン・ライト)
データ・ウェアハウスで扱うデータベースはリレーショナル型であるため、データは構造化されており、列と行からなるテーブル形式で格納されます。これらのテーブルは、書き込み時に定義されたスキーマによって管理されます。
変換のステップがデータ・ウェアハウスの外部にある ODS で処理される場合は、ETL(Extract, Transform, Load:抽出、変換、ロード)と呼ばれます。変換データをデータ・ウェアハウス内部で処理する場合は、ELT (Extract, Load, Transform:抽出、ロード、変換)と呼ばれます。ETL と ELT のどちらを使用する場合でも、データ・ウェアハウスは、構造化データ、スキーマ・オン・ライトでリレーショナル・データベースと連動する必要があります。
データ・ウェアハウスの使用目的
データ・ウェアハウスの一般的なアプリケーション:
- オンライン・トランザクション処理(OLTP: Online Transaction Processing):データ・ウェアハウスは、大量の短いデータの処理のために最適化され、データの整合性の維持と高速なクエリが可能になります。一例として、高頻度の取引用プラットフォームで行われるトランザクションが挙げられます。
- オンライン分析処理(OLAP: Online Analytical Processing):データ・ウェアハウスを最適化することで、トランザクション量の比較的少ない複雑なクエリを高速化できます。これは、アナリストが BI レポートを生成するときなどに使用されます。
- 予測型分析:例えば自社の将来予測と「仮定」のシナリオを生成するために、機械学習アルゴリズムを活用して OLAP システムを最適化します。
データ・ウェアハウスはスキーマ・オン・ライトであるため、データ・ウェアハウスにスキーマを追加する前に、実行予定のクエリのタイプを把握しておくことが重要です。多様なデータソースによる複雑さを解消するために、データ・ウェアハウスをセグメント化してデータ・マートとし、CRM のような特定の事業部門にハードウェア/ソフトウェアのリソースを割り当てるという方法もあります。
データ・ウェアハウス、データ・レイク、データ・ハブの違い
これらは似た概念を持つものと思われがちですが、次のような違いがあります。
- データ・ウェアハウス:データ・ウェアハウスは、組織内の複数の非構造化データ・ソースから取り込んだ構造化データを統合・格納する単一のリポジトリです。
- データ・レイク:組織内(データ・ウェアハウスを含む)のあらゆる構造化および未加工の非構造化データを格納する単一の未精製リポジトリです。このデータから BI のための知見を抽出するには、まずデータを処理する必要があります。
- データハブ:構造化および非構造化データを集中管理型データ・レイヤーに集約し、一元管理可能にする単一のインターフェースです。オペレーショナル・データも処理できる点でデータ・ウェアハウスとは異なり、複数の形式のデータに対応可能な点でデータ・レイクとも異なります。
データ・ハブは、異なるエンドポイントの集合間でのデータ共有に必要なデータ・ガバナンスを提供します。このように、データ・ハブはデータ・レイクとデータ・ウェアハウスを単一のアクセス・レイヤーに集約します。データ処理が抽象化されるため、BI のための知見抽出を一元化された場所で行うことができます。
データ・ウェアハウスにピュア・ストレージが選ばれる理由とは
既存のデータ・ウェアハウスのインフラに OLAP/OLTP パイプラインを新たに追加する場合には、モダン・データ・エクスペリエンスを実現するピュア・ストレージのオールフラッシュ・ストレージ・ソリューションをおすすめします。
ピュア・ストレージの FlashBlade® は、業界初のデータ・ハブとして、データ・ウェアハウスの分析・レポート生成ワークロードに加えて、次のようなデータ・ハブの特長を備えています。
- あらゆるデータ・エンドポイント間でシームレスなデータ共有
- 統合ファイル/オブジェクト・ストレージ
- オペレーショナル・データをリアルタイムで処理
- スケールアウトを念頭に置いたアーキテクチャ
- あらゆるデータに多次元的な性能を提供する設計
- ソフトウェアからハードウェアまで、大規模に並列処理