ペースの速い環境では、複数のノードからの同時読み取りを可能にするファイル・システムが必要です。IBM General Parallel File System(GPFS)は、1998 年に開発されましたが、人工知能(AI)と機械学習(ML)をアプリケーションに活用する企業にとっては 1 つの選択肢です。これらのアプリケーションには、複数のノードからアクセス可能な大容量で高性能なストレージが必要です。
GPFS とは?
エンタープライズ・レベルのアプリケーションは、ペタバイト級の保存データを持つ可能性のある複数のディスクを使用しています。IBM GPFS ファイル・システムは、データの高速配信を可能にし、ディスク・ストレージ技術の遅延によるボトルネックを回避します。新しい GPFS 技術はメタデータを複数のディスク・ストレージ・ノードに分散し、データも複数のディスクに分散します。複数のディスクにデータを分散させることで、アプリケーションは複数のディスクから同時に(すなわち並列に)データを取得できるため、より多くのデータを同時に取得できます。この技術は、アプリケーションが単一のディスクから全てのデータを取得するのを待つことを余儀なくされた場合に、一般的なボトルネックを克服します。
GPFS の特徴
GPFS の並列入出力は、ファイル・システムを AI や ML アプリケーションにとって最適なオプションの 1 つにしていますが、この技術には他にもいくつかあります。
- ストレージ・エリア・ネットワーク(SAN)に格納された数十億のファイルにも対応
- SAN デバイスと GPFS の便利な管理と統合
- 高速読み取り/書き込みにより、大容量の同時ユーザーによるアプリケーションをサポート
- 低遅延でエクサバイトのデータを読み書き
GPFS のユースケース
高性能コンピューティング(HPC)には最高の技術が必要ですが、企業は多くの場合、ボトルネックはストレージ・レベルで発生することを忘れてしまいます。最速の CPU、サーバー、メモリー、ネットワーク転送速度で、ストレージ・ハードウェアにデータを読み書きさせることができます。しかし、ストレージ技術が遅い場合はボトルネックとなり、アプリケーションの速度が低下します。
GPFS のユースケース:
- データセンター向け性能エンジニアリング
- 大量のデータ処理を必要とするアプリケーション
- 機械学習と人工知能の取り込みと処理
- マルチアプリケーション・ストレージと処理
- 数ペタバイトの大容量ストレージ
GPFS アーキテクチャ
GPFS は分散アーキテクチャを採用しているため、データは複数のストレージ・デバイスにまたがります。複数のサーバーまたは SAN ロケーションがデータを保持し、複数のネットワーク接続がこれらのストレージ・デバイスを結んでいます。アプリケーションがデータを読み取る必要がある場合は、複数のネットワーク・ロケーションを使用してデータを並列に読み取ることができます。つまり、データは全てのストレージ・ロケーションから同時に読み取られます。
GPFS アーキテクチャの重要な要素:
- データは複数のストレージ・ロケーションに格納されますが、データを説明するメタデータも複数のサーバーに格納されます。
- データを保存するサーバーは、複数のクラウドやオンプレミスの場所にある可能性があります。
- GPFS ストレージを使用して、ストレージの場所とアプリケーションを高速ネットワーク接続で相互接続します。
- ストレージ・デバイスのための高度な技術が不可欠です。
GPFS と従来のファイル・システムの比較
GPFS は、Hadoop Distributed File System (HDFS)と比較されます。どちらも大量のデータを保存することを意図していますが、性能やスケーラビリティに影響を与える違いがあります。どちらのファイル・システムもデータを分割し、ネットワーク上のノードに格納しますが、GPFS には Posix セマンティクスがあり、さまざまな Linux ディストリビューションや Windows を含むオペレーティング・システムとの互換性を可能にします。
Hadoop インデックス作成には、大規模なプライマリおよびセカンダリ・メタデータ・サーバーが必要ですが、GPFS は、特殊なサーバーを必要とせずにメタデータをシステム全体に分散します。また、分散データは Hadoop よりも小さなブロックになっており、特にデータが並列に読み込まれるため、読み込みが高速に行われます。GPFS は、Hadoop よりも多くのデータ・ストレージ容量を必要としますが、読み取りサイクルでははるかに高速です。
GPFS のベストプラクティス
ファイルの読み取りと書き込みを最適な速度に保つには、まず、性能のためのネットワーク・インフラが必要です。GPFS ストレージ・システムは並列に読み込みを行うため、性能優先のネットワーク機器を導入することで、データ転送のボトルネックになることはありません。ピュア・ストレージのインフラには、Pure Cloud Block Store、Portworx、FlashArray などがあり、大容量ディスク読み取りのためのアプリケーション性能を維持します。
ファイル共有は、ディレクトリレベルのマウント・ポイントで使用し、アプリケーションがオペレーティング・システム・ファイルを含むファイル・システム全体にアクセスしないようにする必要があります。ディスク全体ではなくディレクトリに基づいてマウントすることで、データの安全性とディスクをホストするサーバーの整合性が向上します。また、管理者は、アプリケーションの読み取り手順とは無関係の機密ファイルを分離し、不正アクセスのリスクを低減する必要があります。
まとめ
AI や機械学習のアプリケーションの高性能な計算能力に対応する高速ストレージが必要な場合、ピュア・ストレージは、ビジネスの成長とユーザー満足度に必要なスケーラビリティをサポートするインフラを提供します。HPC 用のディスクは、高額なプロビジョニングやインストールなしで展開できます。HPC インフラは、高速アプリケーションに整合性、性能、スケーラビリティ、次世代の処理をもたらすように設計されています。