Skip to Content

¿Qué es el GPFS?

En un entorno acelerado, necesita un sistema de archivos que permita lecturas simultáneas de múltiples nodos. El IBM General Parallel File System (GPFS) se desarrolló en 1998, pero es una opción para las empresas que utilizan la inteligencia artificial (IA) y el aprendizaje automático (ML) en sus aplicaciones. Estas aplicaciones necesitan un almacenamiento de alto volumen y alto rendimiento accesible desde múltiples nodos para un procesamiento más rápido.

¿Qué es el GPFS?

Las aplicaciones de nivel empresarial funcionan con múltiples discos con potencialmente petabytes de datos almacenados. El sistema de archivos GPFS de IBM permite una entrega rápida de los datos para evitar cuellos de botella causados por una tecnología de almacenamiento de disco más lenta. La nueva tecnología GPFS distribuye sus metadatos en múltiples nodos de almacenamiento de disco y los datos también se distribuyen en múltiples discos. La distribución de los datos en múltiples discos permite que las aplicaciones recuperen los datos de múltiples discos al mismo tiempo (es decir, en paralelo) para poder recuperar más datos al mismo tiempo. Esta tecnología supera los cuellos de botella habituales cuando las aplicaciones se ven obligadas a esperar a que todos los datos se recuperen de un único disco.

Características de GPFS

La entrada y la salida paralelas en GPFS hacen que el sistema de archivos sea una de las mejores opciones para las aplicaciones de IA y ML, pero la tecnología tiene muchas otras:

  • Funciona bien con miles de millones de archivos almacenados en una red de área de almacenamiento (SAN ). 
  • Gestión e integración cómodas de sus dispositivos SAN y GPFS
  • Lecturas y escrituras de alta velocidad para soportar aplicaciones con un gran volumen de usuarios simultáneos.
  • Lee y escribe exabytes de datos con baja latencia

Casos de uso para GPFS

La computación de alto rendimiento (HPC) requiere lo mejor en tecnología, pero las empresas suelen olvidarse de que los cuellos de botella se producen a nivel de almacenamiento. Puede tener las CPU, los servidores, la memoria y las velocidades de transferencia de red más rápidas disponibles que se alimentan del hardware de almacenamiento para leer o escribir datos. Pero si su tecnología de almacenamiento es lenta, introduce un cuello de botella y ralentiza las aplicaciones. 

Algunos casos de uso de GPFS:

  • Ingeniería de rendimiento para centros de datos
  • Aplicaciones que requieren grandes volúmenes de procesamiento de datos
  • El aprendizaje automático y la introducción y el procesamiento de la inteligencia artificial
  • Almacenamiento y procesamiento multiaplicación
  • Almacenamiento de gran volumen de varios petabytes

Arquitectura GPFS

GPFS utiliza una arquitectura distribuida, lo que significa que los datos abarcan múltiples dispositivos de almacenamiento. Varios servidores o ubicaciones SAN contienen sus datos y múltiples conexiones de red vinculan estos dispositivos de almacenamiento. Cuando una aplicación necesita leer datos, puede usar múltiples ubicaciones de red para leer datos en paralelo, lo que significa que los datos se leen al mismo tiempo desde todas las ubicaciones de almacenamiento.

Algunos componentes clave de la arquitectura GPFS:

  • Los datos se almacenan en múltiples ubicaciones de almacenamiento, pero los metadatos que describen los datos también se almacenan en múltiples servidores.
  • Los servidores que almacenan datos pueden estar en múltiples ubicaciones locales o en la nube.
  • Las conexiones de red rápidas entrelazan las ubicaciones y las aplicaciones de almacenamiento usando el almacenamiento GPFS.
  • Las tecnologías avanzadas para los dispositivos de almacenamiento son esenciales.

GPFS frente a los sistemas de archivos tradicionales

El GPFS suele compararse con el Hadoop Distributed File System (HDFS). Ambos están pensados para almacenar grandes cantidades de datos, pero tienen algunas diferencias que afectan al rendimiento y la escalabilidad. Si bien ambos sistemas de archivos separan los datos y los almacenan en nodos de toda la red, GPFS tiene una semántica Posix para permitir la compatibilidad con diversas distribuciones y sistemas operativos Linux, incluidos Windows. 

Los grandes servidores de metadatos primarios y secundarios son necesarios para la indexación de Hadoop, pero GPFS distribuye metadatos en todo el sistema sin necesidad de servidores especializados. Los datos distribuidos también están en bloques más pequeños que Hadoop, por lo que las lecturas se producen más rápidamente, especialmente porque los datos se leen en paralelo. El GPFS requiere más capacidad de almacenamiento de datos que Hadoop, pero es mucho más rápido durante los ciclos de lectura.

Buenas prácticas de GPFS

Para mantener las lecturas y escrituras de archivos a unas velocidades óptimas, primero asegúrese de tener la infraestructura de red para el rendimiento. Un sistema de almacenamiento GPFS leerá en paralelo, por lo que tener un equipo de red que priorice el rendimiento garantiza que no será un cuello de botella para las transferencias de datos. La infraestructura de Pure Storage, que incluye Pure Cloud Block Store™, Portworx® y FlashArray™, conserva el rendimiento de las aplicaciones para las lecturas de disco de gran volumen.

El uso compartido de archivos debe usarse con puntos de montaje a nivel de directorio para que las aplicaciones no accedan a todo el sistema de archivos, incluidos los archivos del sistema operativo. El montaje basado en directorios en lugar de discos completos protege mejor los datos y la integridad de los discos de alojamiento del servidor. Los administradores también deben separar los archivos confidenciales no relacionados con los procedimientos de lectura de las aplicaciones para reducir los riesgos de acceso no autorizado.

Conclusión

Si necesita un almacenamiento rápido para una potencia de computación de alto rendimiento en las aplicaciones de IA y aprendizaje automático, Pure Storage tiene la infraestructura que le ayudará con la escalabilidad necesaria para el crecimiento de la empresa y la satisfacción del usuario. Los administradores pueden desplegar discos para HPC sin aprovisionamiento e instalación caros. Nuestra infraestructura HPC se ha creado para proporcionar integridad, rendimiento, escalabilidad y procesamiento de última generación a su aplicación de alta velocidad.

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
White Paper
7 páginas
CONTACTAR CON NOSOTROS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudarle.

Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes. 

Llámenos al: +34 51 889 8963

Medios de comunicaciónpr@purestorage.com

 

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.