Em um ambiente acelerado, você precisa de um sistema de arquivos que permita leituras simultâneas de vários nós. O IBM General Parallel File System (GPFS) foi desenvolvido em 1998, mas é uma opção para empresas que aproveitam inteligência artificial (AI e aprendizado de máquina (ML) em seus aplicativos. Esses aplicativos precisam de armazenamento de alto volume e alto desempenho acessível de vários nós para processamento mais rápido.
O que é GPFS?
Aplicativos de nível corporativo funcionam com vários discos com potencialmente petabytes de dados armazenados. O sistema de arquivos IBM GPFS permite a entrega rápida de dados para evitar gargalos da tecnologia de armazenamento em disco mais lenta. A nova tecnologia GPFS distribui seus metadados em vários nós de armazenamento em disco, e os dados também são espalhados em vários discos. Distribuir dados em vários discos permite que os aplicativos recuperem dados de vários discos ao mesmo tempo (ou seja, em paralelo) para que mais dados possam ser recuperados ao mesmo tempo. Essa tecnologia supera gargalos comuns quando os aplicativos são forçados a esperar que todos os dados sejam recuperados de um único disco.
Recursos da GPFS
A entrada e a saída paralelas no GPFS é o que torna o sistema de arquivos uma das melhores opções para aplicativos de AI e ML, mas a tecnologia tem várias outras:
- Funciona bem com bilhões de arquivos armazenados em uma rede de área de armazenamento (SAN, Storage Area Network)
- Gerenciamento e integração convenientes de seus dispositivos SAN e GPFS
- Leituras e gravações de alta velocidade para dar suporte a aplicativos com usuários simultâneos de alto volume
- Lê e grava exabytes de dados com baixa latência
Casos de uso para GPFS
A computação de alto desempenho (HPC, High-Performance Computing) exige o melhor em tecnologia, mas as empresas muitas vezes esquecem que os gargalos acontecem no nível de armazenamento. Você pode ter as mais rápidas CPUs, servidores, memória e velocidades de transferência de rede disponíveis que alimentam o hardware de armazenamento para ler ou gravar dados. Mas se sua tecnologia de armazenamento for lenta, você introduzirá um gargalo e reduzirá a velocidade dos aplicativos.
Alguns casos de uso para GPFS:
- Engenharia de desempenho para datacenters
- Aplicativos que exigem grandes volumes de processamento de dados
- Aprendizado de máquina e ingestão e processamento de inteligência artificial
- Armazenamento e processamento de vários aplicativos
- Armazenamento de alto volume de vários petabytes
Arquitetura GPFS
A GPFS usa arquitetura distribuída, o que significa que os dados abrangem vários dispositivos de armazenamento. Vários servidores ou locais SAN mantêm seus dados, e várias conexões de rede vinculam esses dispositivos de armazenamento. Quando um aplicativo precisa ler dados, ele pode usar vários locais de rede para ler dados em paralelo, o que significa que os dados são lidos ao mesmo tempo de todos os locais de armazenamento.
Alguns componentes-chave na arquitetura GPFS:
- Os dados são armazenados em vários locais de armazenamento, mas os metadados que descrevem os dados também são armazenados em vários servidores.
- Os servidores que armazenam dados podem estar em vários locais de nuvem ou locais.
- Conexões de rede rápidas interligam locais de armazenamento e aplicativos usando armazenamento GPFS.
- Tecnologias avançadas para dispositivos de armazenamento são essenciais.
GPFS vs. sistemas de arquivos tradicionais
A GPFS é frequentemente comparada ao Hadoop Distributed File System (HDFS). Ambos são destinados a armazenar grandes quantidades de dados, mas têm algumas diferenças que afetam o desempenho e a escalabilidade. Embora ambos os sistemas de arquivos quebrem dados e os armazenem em nós na rede, a GPFS tem a semântica Posix para permitir compatibilidade com várias distribuições Linux e sistemas operacionais, incluindo Windows.
Grandes servidores de metadados primários e secundários são necessários para indexação Hadoop, mas a GPFS distribui metadados pelo sistema sem a necessidade de servidores especializados. Os dados distribuídos também estão em blocos menores do que o Hadoop, portanto, as leituras ocorrem mais rapidamente, especialmente porque os dados são lidos em paralelo. A GPFS exige mais capacidade de armazenamento de dados do que o Hadoop, mas é muito mais rápida durante os ciclos de leitura.
Melhores práticas de GPFS
Para manter as leituras e gravações de arquivos em velocidades ideais, primeiro certifique-se de ter a infraestrutura de rede para desempenho. Um sistema de armazenamento GPFS lerá em paralelo, portanto, ter equipamentos de rede com desempenho em primeiro lugar garante que não será um gargalo para transferências de dados. A infraestrutura da Pure Storage, incluindo Pure Cloud Block Store Portworx® e FlashArray preserva o desempenho dos aplicativos para leituras de disco de grande volume.
O compartilhamento de arquivos deve ser usado com pontos de montagem no nível do diretório para que os aplicativos não acessem todo o sistema de arquivos, incluindo arquivos do sistema operacional. A montagem baseada em diretórios, em vez de discos inteiros, protege melhor os dados e a integridade dos discos de hospedagem do servidor. Os administradores também devem separar arquivos confidenciais não relacionados aos procedimentos de leitura de aplicativos para reduzir os riscos de acesso não autorizado.
Conclusão
Se você precisar de armazenamento rápido para poder computacional de alto desempenho em aplicativos de AI e aprendizado de máquina, a Pure Storage tem a infraestrutura para ajudar com a escalabilidade necessária para o crescimento dos negócios e a satisfação do usuário. Os administradores podem implantar discos para HPC sem provisionamento e instalação caros. Nossa infraestrutura de HPC foi desenvolvida para trazer integridade, desempenho, escalabilidade e processamento de última geração para seu aplicativo de alta velocidade.