Skip to Content

GPFS란?

빠른 속도의 환경에서는 여러 노드에서 동시 읽기가 가능한 파일 시스템이 필요합니다. IBM General Parallel File System(GPFS)은 1998년에 개발되었지만, AI(인공지능)와 ML(머AI러닝)을 애플리케이션에 활용하는 기업을 위한 하나의 옵션입니다. 이러한 애플리케이션은 더 빠른 처리를 위해 여러 노드에서 액세스할 수 있는 대용량 및 고성능 스토리지가 필요합니다.

GPFS란?

엔터프라이즈 수준의 애플리케이션은 페타바이트에 달하는 데이터가 저장되어 있는 여러 디스크와 함께 작동합니다. IBM GPFS 파일 시스템은 느린 디스크 스토리지 기술로 인한 병목 현상을 방지하기 위해 데이터를 빠르게 제공할 수 있습니다. 새로운 GPFS 기술은 메타데이터를 여러 디스크 스토리지 노드에 분산시키며, 데이터는 여러 디스크에도 분산됩니다. 여러 디스크에 데이터를 분산하면 애플리케이션이 여러 디스크에서 동시에(즉, 병렬로) 데이터를 검색하여 더 많은 데이터를 동시에 검색할 수 있습니다. 이 기술은 애플리케이션이 단일 디스크에서 모든 데이터가 검색될 때까지 기다려야 할 때 발생하는 일반적인 병목 현상을 극복합니다.

GPFS의 특징

GPFS의 병렬 입력 및 출력은 파일 시스템을 AI 및 ML 애플리케이션을 위한 더 나은 옵션 중 하나로 만들지만, 이 기술은 다음과 같은 여러 가지 기능을 제공합니다.

  • SAN(Storage Area Network)에 저장된 수십억 개의 파일과 호환 
  • SAN 디바이스와 GPFS의 편리한 관리 및 통합
  • 대용량 동시 사용자가 있는 애플리케이션을 지원하는 고속 읽기 및 쓰기
  • 낮은 레이턴시로 엑사바이트의 데이터를 읽고 씁니다.

GPFS 활용 사례

고성능 컴퓨팅(HPC)은 최고의 기술을 필요로 하지만, 기업들은 종종 스토리지 수준에서 병목 현상이 발생한다는 사실을 잊어버립니다. 스토리지 하드웨어에 공급되어 데이터를 읽거나 쓸 수 있는 가장 빠른 CPU, 서버, 메모리 및 네트워크 전송 속도를 제공할 수 있습니다. 그러나 스토리지 기술이 느리면 병목 현상이 발생하고 애플리케이션이 느려집니다. 

GPFS의 몇 가지 활용 사례:

  • 데이터센터를 위한 성능 엔지니어링
  • 대량의 데이터 처리가 필요한 애플리케이션
  • 머신러닝 및 인공지능 수집 및 처리
  • 멀티 애플리케이션 스토리지 및 처리
  • 수 페타바이트의 대용량 스토리지

GPFS 아키텍처

GPFS는 분산 아키텍처를 사용하며, 이는 데이터가 여러 스토리지 장치에 걸쳐 있음을 의미합니다. 여러 서버 또는 SAN 위치에 데이터가 저장되며, 여러 네트워크 연결이 이러한 스토리지 장치를 연결합니다. 애플리케이션이 데이터를 읽어야 하는 경우, 여러 네트워크 위치를 사용하여 데이터를 병렬로 읽을 수 있습니다. 즉, 모든 스토리지 위치에서 동시에 데이터를 읽어야 합니다.

GPFS 아키텍처의 몇 가지 핵심 구성 요소:

  • 데이터는 여러 스토리지 위치에 저장되지만, 데이터를 설명하는 메타데이터도 여러 서버에 저장됩니다.
  • 데이터를 저장하는 서버는 여러 클라우드 또는 온프레미스 위치에 있을 수 있습니다.
  • 빠른 네트워크 연결은 GPFS 스토리지를 사용하여 스토리지 위치와 애플리케이션을 상호 연결합니다.
  • 스토리지 디바이스를 위한 고급 기술은 필수적입니다.

GPFS와 기존 파일 시스템 비교

GPFS는 Hadoop Distributed File System (HDFS)과 비교되는 경우가 많습니다. 둘 다 대용량 데이터를 저장하기 위한 것이지만, 성능과 확장성에 영향을 미치는 몇 가지 차이점이 있습니다. 두 파일 시스템 모두 데이터를 세분화하여 네트워크 전체의 노드에 저장하지만, GPFS에는 Posix 시맨틱이 있어 Windows를 포함한 다양한 Linux 배포 및 운영 체제와 호환됩니다. 

Hadoop 인덱싱에는 대규모의 1차 및 2차 메타데이터 서버가 필요하지만, GPFS는 특수 서버 없이 시스템 전반에 메타데이터를 배포합니다. 분산된 데이터도 Hadoop보다 작은 블록으로 되어 있기 때문에 특히 데이터를 병렬로 읽기 때문에 읽기 속도가 더 빨라집니다. GPFS는 Hadoop보다 더 많은 데이터 스토리지 용량을 필요로 하지만, 읽기 사이클 동안 훨씬 더 빠릅니다.

GPFS 모범 사례

파일 읽기 및 쓰기를 최적의 속도로 유지하려면 먼저 성능을 위한 네트워크 인프라를 확보해야 합니다. GPFS 스토리지 시스템은 병렬로 판독되므로 성능 우선 네트워킹 장비를 갖추면 데이터 전송에 병목현상이 발생하지 않습니다. 퓨어스토리지 Pure Cloud Block Store의 인프라는 대용량 디스크 읽기를 위한 애플리케이션 성능을 보존합니다. Portworx FlashArray

애플리케이션이 운영 체제 파일을 포함한 전체 파일 시스템에 액세스하지 못하도록 파일 공유는 디렉터리 레벨 마운트 포인트와 함께 사용해야 합니다. 디스크 전체가 아닌 디렉터리를 기반으로 장착하면 디스크를 호스팅하는 서버의 데이터와 무결성을 더 잘 보호할 수 있습니다. 관리자는 또한 애플리케이션 읽기 절차와 무관한 민감한 파일을 분리하여 무단 액세스의 위험을 줄여야 합니다.

결론

AI 및 머신러닝 애플리케이션의 고성능 컴퓨팅 성능을 위해 빠른 스토리지가 필요한 경우, 퓨어스토리지는 비즈니스 성장과 사용자 만족도에 필요한 확장성을 지원하는 인프라를 갖추고 있습니다. 관리자는 값비싼 프로비저닝 및 설치 없이 HPC용 디스크를 배포할 수 있습니다. HPC 인프라는 고속 애플리케이션에 무결성, 성능, 확장성 및 차세대 처리를 제공하도록 구축되었습니다.

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
백서
7 페이지
연락처
질문하기

퓨어스토리지 제품이나 인증 관련 질문이나 코멘트가 있으신가요?   저희가 도와드립니다.

데모 예약

라이브 데모를 예약하고 퓨어스토리지가 데이터를 어떻게 강력한 결과로 전환해주는지 직접 확인해 보세요. 

연락하기: +82 2 6001-3330

언론홍보팀:  pr@purestorage.com

 

퓨어스토리지코리아 주소

30F 아셈타워,

517 영동대로,

강남구, 서울

대한민국

korea@purestorage.com

닫기
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.