Dans un environnement rapide, vous avez besoin d’un système de fichiers qui permette des lectures simultanées à partir de plusieurs nœuds. IBM General Parallel File System (GPFS) a été développé en 1998, mais c’est une option pour les entreprises qui exploitent l’intelligence artificielle (AI et l’apprentissage machine (ML) dans leurs applications. Ces applications ont besoin d’un stockage haute performance et volumineux accessible depuis plusieurs nœuds pour un traitement plus rapide.
Qu’est-ce que le GPFS ?
Les applications professionnelles fonctionnent avec plusieurs disques, avec des pétaoctets de données stockées. Le système de fichiers IBM GPFS permet une transmission rapide des données afin d’éviter les goulets d’étranglement dus à une technologie de stockage sur disque plus lente. La nouvelle technologie GPFS distribue ses métadonnées sur plusieurs nœuds de stockage sur disques, et les données sont également réparties sur plusieurs disques. La distribution des données sur plusieurs disques permet aux applications de récupérer des données à partir de plusieurs disques en même temps (c.-à-d. en parallèle) afin que davantage de données puissent être récupérées en même temps. Cette technologie permet de surmonter les goulets d’étranglement courants lorsque les applications sont contraintes d’attendre que toutes les données soient extraites d’un seul disque.
Fonctionnalités du GPFS
Les entrées et sorties parallèles dans GPFS font du système de fichiers l’une des meilleures options pour les applications d’AI et d’ML, mais la technologie en a plusieurs autres :
- Fonctionne bien avec des milliards de fichiers stockés sur un réseau de stockage (SAN )
- Gestion et intégration pratiques de vos périphériques SAN et GPFS
- Lectures et écritures ultrarapides pour prendre en charge les applications avec des utilisateurs simultanés à grand volume
- Lit et écrit des exaoctets de données avec une faible latence
Cas d’utilisation pour GPFS
L’informatique haute performance (HPC) nécessite le meilleur de la technologie, mais les entreprises oublient souvent que des goulets d’étranglement se produisent au niveau du stockage. Vous pouvez bénéficier des vitesses de transfert de processeurs, serveurs, mémoire et réseau les plus rapides disponibles, qui alimentent le matériel de stockage pour lire ou écrire des données. Mais si votre technologie de stockage est lente, vous introduisez un goulet d’étranglement et ralentissez les applications.
Quelques cas d’utilisation pour GPFS :
- Ingénierie des performances pour les datacenters
- Applications nécessitant des volumes élevés de traitement de données
- ingestion et traitement de l’apprentissage machine et de l’intelligence artificielle
- Stockage et traitement multi-applications
- Stockage en grand volume de plusieurs pétaoctets
Architecture GPFS
GPFS utilise une architecture distribuée, ce qui signifie que les données couvrent plusieurs périphériques de stockage. Plusieurs serveurs ou emplacements SAN contiennent vos données, et plusieurs connexions réseau relient ces périphériques de stockage. Lorsqu’une application a besoin de lire des données, elle peut utiliser plusieurs emplacements réseau pour lire des données en parallèle, ce qui signifie que les données sont lues en même temps depuis tous les emplacements de stockage.
Quelques composants clés de l’architecture GPFS :
- Les données sont stockées sur plusieurs emplacements de stockage, mais les métadonnées décrivant les données sont également stockées sur plusieurs serveurs.
- Les serveurs qui stockent des données peuvent se trouver dans plusieurs sites cloud ou sur site.
- Des connexions réseau rapides relient les emplacements de stockage et les applications à l’aide du stockage GPFS.
- Les technologies avancées pour les périphériques de stockage sont essentielles.
Systèmes de fichiers GPFS et systèmes de fichiers traditionnels
Le GPFS est souvent comparé au Hadoop Distributed File System (HDFS) Les deux sont destinés à stocker de grandes quantités de données, mais elles présentent des différences qui affectent les performances et l’évolutivité. Alors que les deux systèmes de fichiers brisent les données et les stockent sur des nœuds du réseau, GPFS dispose de la sémantique Posix pour assurer la compatibilité avec diverses distributions et différents systèmes d’exploitation Linux, y compris Windows.
Les gros serveurs de métadonnées primaires et secondaires sont nécessaires pour l’indexation Hadoop, mais GPFS distribue les métadonnées sur l’ensemble du système sans avoir besoin de serveurs spécialisés. Les données distribuées sont également en blocs plus petits que Hadoop, les lectures sont donc plus rapides, d’autant plus que les données sont lues en parallèle. Le stockage GPFS nécessite une capacité de stockage de données supérieure à celle d’Hadoop, mais il est beaucoup plus rapide pendant les cycles de lecture.
Bonnes pratiques GPFS
Pour maintenir la lecture et l’écriture des fichiers à des vitesses optimales, assurez-vous d’abord que vous disposez de l’infrastructure réseau pour les performances. Un système de stockage GPFS se lit en parallèle, de sorte que disposer d’un équipement réseau axé sur les performances garantit qu’il ne constituera pas un goulet d’étranglement pour les transferts de données. L’infrastructure Pure Storage , notamment Pure Cloud Block Store™, Portworx® et FlashArray™, préserve les performances des applications pour les lectures de disques volumineux.
Le partage de fichiers doit être utilisé avec des points de montage au niveau du répertoire afin que les applications n’accèdent pas à l’ensemble du système de fichiers, y compris les fichiers du système d’exploitation. Le montage basé sur des répertoires plutôt que sur des disques entiers permet de mieux sécuriser les données et l’intégrité des disques d’hébergement du serveur. Les administrateurs doivent également séparer les fichiers sensibles sans lien avec les procédures de lecture des applications afin de réduire les risques d’accès non autorisé.
Conclusion
Si vous avez besoin d’un stockage rapide pour bénéficier d’une puissance de calcul haute performance dans les applications d’AI et d’apprentissage machine, Pure Storage dispose de l’infrastructure nécessaire pour vous aider à développer votre activité et à satisfaire vos utilisateurs. Les administrateurs peuvent déployer des disques pour le HPC sans avoir à s’occuper d’une mise en service et d’une installation coûteuses. Notre infrastructure HPC est conçue pour apporter intégrité, performances, évolutivité et traitement nouvelle génération à votre application haute vitesse.