In un ambiente frenetico, è necessario un file system che consenta letture simultanee da più nodi. Il General Parallel File System (GPFS) IBM è stato sviluppato nel 1998, ma è un'opzione per le aziende che sfruttano l'intelligenza artificiale (AI) e il machine learning (ML) nelle loro applicazioni. Queste applicazioni richiedono uno storage a volumi elevati e performance elevate accessibile da più nodi per un'elaborazione più rapida.
Che cos'è la GPFS?
Le applicazioni di livello enterprise funzionano con più dischi con potenziali petabyte di dati archiviati. Il file system IBM GPFS consente una rapida trasmissione dei dati per evitare colli di bottiglia dovuti a una tecnologia di storage su disco più lenta. La nuova tecnologia GPFS distribuisce i metadati su più nodi di storage su disco e i dati vengono distribuiti su più dischi. La distribuzione dei dati su più dischi consente alle applicazioni di recuperare i dati da più dischi contemporaneamente (cioè in parallelo) in modo da poter recuperare più dati contemporaneamente. Questa tecnologia supera i colli di bottiglia comuni quando le applicazioni sono costrette ad attendere il recupero di tutti i dati da un singolo disco.
Caratteristiche della GPFS
L'input e l'output paralleli in GPFS sono ciò che rende il file system una delle opzioni migliori per le applicazioni di AI e ML, ma la tecnologia ne ha diverse altre:
- Funziona bene con miliardi di file archiviati su una rete di aree di storage (SAN)
- Gestione e integrazione convenienti dei dispositivi SAN e GPFS
- Letture e scritture ad alta velocità per supportare le applicazioni con utenti simultanei con volumi elevati
- Legge e scrive exabyte di dati con bassa latenza
Casi d'uso per GPFS
Il calcolo a performance elevate (HPC) richiede il meglio della tecnologia, ma le aziende spesso dimenticano che i colli di bottiglia avvengono a livello di storage. Puoi avere le CPU, i server, la memoria e le velocità di trasferimento di rete più veloci disponibili che si inseriscono nell'hardware di storage per leggere o scrivere i dati. Ma se la tecnologia di storage è lenta, si introduce un collo di bottiglia e si rallentano le applicazioni.
Alcuni casi d'uso per la GPFS:
- Ingegneria delle performance per i data center
- Applicazioni che richiedono elevati volumi di elaborazione dati
- Ingestione ed elaborazione del machine learning e dell'intelligenza artificiale
- Storage ed elaborazione multi-applicazione
- Storage a volumi elevati di diversi petabyte
Architettura GPFS
La GPFS utilizza un'architettura distribuita, il che significa che i dati coprono più dispositivi di storage. Più server o posizioni SAN contengono i dati e più connessioni di rete collegano questi dispositivi di storage. Quando un'applicazione deve leggere i dati, può utilizzare più posizioni di rete per leggere i dati in parallelo, il che significa che i dati vengono letti contemporaneamente da tutte le posizioni di storage.
Alcuni componenti chiave dell'architettura GPFS:
- I dati vengono archiviati in più posizioni di storage, ma anche i metadati che descrivono i dati vengono memorizzati su più server.
- I server che memorizzano i dati possono trovarsi in più posizioni cloud o on-premise.
- Le connessioni di rete veloci collegano le posizioni e le applicazioni di storage utilizzando lo storage GPFS.
- Le tecnologie avanzate per i dispositivi di storage sono essenziali.
Confronto tra GPFS e file system tradizionali
La GPFS viene spesso confrontata con l'Hadoop Distributed File System (HDFS). Entrambi hanno lo scopo di memorizzare grandi quantità di dati, ma presentano alcune differenze che influiscono sulle performance e sulla scalabilità. Mentre entrambi i file system suddividono i dati e li memorizzano sui nodi della rete, GPFS dispone della semantica Posix per consentire la compatibilità con varie distribuzioni e sistemi operativi Linux, tra cui Windows.
Per l'indicizzazione Hadoop sono necessari server di metadati primari e secondari di grandi dimensioni, ma GPFS distribuisce i metadati nel sistema senza la necessità di server specializzati. I dati distribuiti sono anche in blocchi più piccoli rispetto ad Hadoop, quindi le letture avvengono più velocemente, soprattutto perché i dati vengono letti in parallelo. La GPFS richiede una maggiore capacità di data storage rispetto ad Hadoop, ma è molto più veloce durante i cicli di lettura.
Best practice GPFS
Per mantenere le letture e le scritture dei file a velocità ottimali, assicurati innanzitutto di disporre dell'infrastruttura di rete per le performance. Un sistema di storage GPFS leggerà in parallelo, quindi disporre di apparecchiature di rete che mettono le performance al primo posto garantisce che non costituisca un collo di bottiglia per il trasferimento dei dati. L'infrastruttura di Pure Storage, tra cui Pure Cloud Block Store™, Portworx® e FlashArray™, mantiene le performance delle applicazioni per le letture su dischi di grandi volumi.
La condivisione dei file deve essere utilizzata con punti di montaggio a livello di directory in modo che le applicazioni non accedano all'intero file system, compresi i file del sistema operativo. Il montaggio basato su directory invece che su interi dischi protegge meglio i dati e l'integrità dei dischi di hosting del server. Gli amministratori devono inoltre separare i file sensibili non correlati alle procedure di lettura delle applicazioni per ridurre i rischi di accesso non autorizzato.
Conclusione
Se hai bisogno di uno storage rapido per ottenere una potenza di calcolo a performance elevate nelle applicazioni di AI e machine learning, Pure Storage dispone dell'infrastruttura necessaria per garantire la scalabilità necessaria per la crescita aziendale e la soddisfazione degli utenti. Gli amministratori possono implementare dischi per HPC senza costi elevati di provisioning e installazione. La nostra infrastruttura HPC è progettata per offrire integrità, performance, scalabilità ed elaborazione di nuova generazione alle tue applicazioni ad alta velocità.