ETL の概要と仕組み
現代企業の IT インフラにおけるデータの移動は、従来型のハードウェアから新しいインフラへの 1 回限りの移動だけではありません。
ETL とは、ビッグデータ分析のプロセスの一部であるデータの抽出(Extract)、変換(Transform)、書き出し/ロード(Load)を表す略語です。ビッグデータの定型的な処理をアプリケーションで実行するために、ETL パイプラインの自動化が行われます。ETL の各ステップの概要は次のとおりです。
- 抽出:1 つまたは複数のデータベースで構成されるソースから、データが抽出されます。
- 変換:データがコンパイルされ、ターゲット・データベースで読み取りが可能な SQL(構造化照会言語)に変換されます。
- 書き出し/ロード:変換後、データは新しいソースにロードされ、ターゲット・システムを置き換えるか、ターゲット・システムに統合されます。
ETL は、大量のデータを迅速に別の場所に移動して日々の運用やアプリケーション・ワークロードをサポートするための手法の 1 つにすぎません。さまざまな環境でシームレスなデータ移動を可能にするオンプレミスあるいはクラウドのソリューションへの投資は、企業が俊敏性を確保し、顧客に高可用性を提供し続けるうえで不可欠です。
データの移行に関してよくある課題
最初の抽出の瞬間からターゲット・ソースへの最終的なデプロイメントまで、データの安全性を常に確保しなければなりません。抽出や転送に不備があると、システムのデータが損なわれるおそれがあります。同様に、IT インフラの不具合や停電、サイバー攻撃といった緊急事態も、データベースにとって脅威となります。データの移行を行う前に、ディザスタ・リカバリ計画を策定しておくことが重要です。
データの移動に際しては、2 つのソース間の互換性という課題も考慮しなければなりません。オリジナル・ソースの SQL がターゲット・ソースと異なる場合があります。これは特に、2 つの異なるシステムで 2 つのアプリケーションを実行している場合のアプリケーションの移行でよくある状況です。このような場合には、移行プロセスを完了する前に、データを互換性のある言語に変換しなければなりません。
データの移行に際しては、移行中に組織の Web サイトがダウンするといったケースも考えられます。ダウンタイムは、データセンターにオンラインでアクセスできない状況を意味します。データの移行プロセスの一環として、新しいデータがターゲット・ソースにアップロードされるとき、アップロードの進行中はシステムへのアクセスが遮断されるかもしれません。また、アクセスを失うことで、顧客やビジネスの喪失というリスクも生じます。
データの移行を失敗させる要因の排除
データの移行を開始する前の準備が重要です。移行を成功させるには、ソース・データベースと移行テクノロジーについて十分に理解しておく必要があります。正しいデータ転送が行われることを予め確認し、古いソースと新しいソースの間でのシームレスなデータ移行を図ります。ダウンタイムが発生するおそれがある場合には、そのことを顧客やビジネス・パートナーに連絡しておくことも重要です。
データの移行中のダウンタイムを回避し、Web サイトを正常に稼働させ続ける方法は複数あります。例えば、ゼロ・ダウンタイムのデプロイメントでは、移行が完了するまでは元のデータベースへのアクセスが保持されます。アップグレードを段階的にアップロードしてダウンタイムを回避する「スキーマ移行」や、2 つの異なるエンティティからのアクセスを許可するクラウド・ストレージ「ハイブリッド・クラウド」などの手法によっても、データ移行中のアクセスを継続できます。
データが転送・デプロイされたら、次に、データの移行が正しく行われたことを検証します。ここでの検証とは、元のソースを変更したり消去したりする前に、移行先のデータベースの正常稼働を確認することを意味します。問題が発生したり、転送中にデータが破損したりした場合は、戻って問題点を修正してから次の段階に進みます。
ピュア・ストレージでデータの移行を容易に
ピュア・ストレージは、最新のコントローラへの無停止アップグレード、外部ホストと内部アレイの接続性、SSD(ソリッド・ステート・ディスク)などのコンポーネントにより、データの移行プロセスをシンプルにします。ピュアは、データの変換と保護を支援してダウンタイムを最小限に抑えるハイブリッド・クラウドを提供します。ピュア・ストレージのソリューションは、データ移行の準備から検証まで、プロセス全体にわたってお客様とデータを支えます。