在步調快速的環境中,您需要一個檔案系統,允許多個節點同時讀取資料。IBM General Parallel File System(GPFS)於 1998 年開發,但對於在其應用中運用人工智慧(AI)和機器學習(ML)的企業而言,這是其中一個選擇。這些應用程式需要從多個節點存取的大量高效能儲存設備,才能加快處理速度。
什麼是 GPFS?
企業級應用程式可與儲存資料可能達 PB 的多個磁碟搭配使用。IBM GPFS 檔案系統可快速傳遞資料,避免較慢的磁碟儲存技術造成瓶頸。新的 GPFS 技術會將中繼資料散佈到多個磁碟儲存節點,資料也散佈到多個磁碟。跨多個磁碟分配資料可讓應用程式同時(即並行)從多個磁碟中擷取資料,以便同時擷取更多資料。當應用程式被迫等待所有資料從單一磁碟中擷取時,這項技術克服了常見的瓶頸。
GPFS 的功能
GPFS 的並行輸入和輸出是讓檔案系統成為 AI 和 ML 應用程式更好的選項之一,但這項技術還有其他幾項:
- 能與儲存區域網路(SAN)上數十億個檔案完美配合
- 方便的 SAN 裝置與 GPFS 管理與整合
- 高速讀寫功能,可支援同時擁有大量使用者的應用程式
- 低延遲讀取和寫入數十億位元組的資料
GPFS 的使用案例
高效能運算(HPC)需要最頂尖的技術,但企業經常忘了儲存層面的瓶頸。您可以擁有最快的 CPU、伺服器、記憶體和網路傳輸速度,以輸入儲存硬體來讀取或寫入資料。但是,如果您的儲存技術緩慢,您會遇到瓶頸並拖慢應用程式。
GPFS 的幾個使用案例:
- 資料中心效能工程
- 需要大量資料處理的應用程式
- 機器學習與人工智慧攝取與處理
- 多應用程式儲存與處理
- 大量儲存數 PB
GPFS 架構
GPFS 使用分散式架構,這表示資料橫跨多個儲存設備。多台伺服器或 SAN 位置可保存您的資料,而多個網路連線則連結了這些儲存設備。當應用程式需要讀取資料時,它可以使用多個網路位置來並行讀取資料,這意味著資料會同時從所有儲存位置讀取。
GPFS 架構中的幾個關鍵要素:
- 資料儲存在多個儲存位置,但描述資料的中繼資料也儲存在多個伺服器上。
- 儲存資料的伺服器可能位於多個雲端或就地部署位置。
- 快速網路連線 使用 GPFS 儲存來連結儲存位置和應用程式。
- 儲存設備的先進技術至關重要。
GPFS vs. 傳統檔案系統
GPFS 通常與 Hadoop Distributed File System (HDFS) 比較。兩者皆是用來儲存大量資料,但它們有一些影響效能和擴充性的差異。雖然兩個檔案系統都分解資料並將其儲存在網路的節點上,但 GPFS 具有 Posix 語義,以便與各種 Linux 發行版本和作業系統相容,包括 Windows。
Hadoop 索引需要大型主要和次要中繼資料伺服器,但 GPFS 將中繼資料分散到整個系統,而不需要專門的伺服器。分散式資料區塊也比 Hadoop 小,因此讀取速度會更快,因為資料是並行讀取。GPFS 需要的資料儲存容量比 Hadoop 多,但讀取週期要快得多。
GPFS 最佳實務
為了讓檔案的讀取和寫入維持在最佳速度,請先確保網路基礎架構的效能。GPFS 儲存系統將並行讀取,因此具備效能優先的網路設備可確保不會造成資料傳輸的瓶頸。Pure Storage 的基礎架構,包括 Pure Cloud Block Store、Portworx® 和 FlashArray ,能夠為大容量磁碟讀取保留應用程式效能。
檔案分享應與目錄級掛接點一起使用,以免應用程式存取整個檔案系統,包括作業系統檔案。基於目錄而非整個磁碟進行安裝,可以更好地保護資料和託管磁碟的伺服器完整性。管理員還應區分與應用程式讀取程序無關的敏感檔案,以降低未經授權的存取風險。
結論
若您需要快速儲存,才能在 AI 和機器學習應用程式中獲得高效能的運算能力,Pure Storage 的基礎架構能協助達成業務成長和使用者滿意度所需的可擴充性。管理員可以為 HPC 部署磁碟,無需昂貴的配置和安裝。我們的 HPC 基礎架構旨在為您的高速應用程式帶來完整性、效能、可擴充性與次世代處理能力。