In een snelle omgeving hebt u een bestandssysteem nodig dat gelijktijdige reads van meerdere nodes mogelijk maakt. Het IBM General Parallel File System (GPFS) werd in 1998 ontwikkeld, maar het is een optie voor bedrijven die gebruik maken van kunstmatige intelligentie (AI) en machine learning (ML) in hun toepassingen. Deze applicaties hebben high-volume en high-performance storage nodig die toegankelijk is vanaf meerdere nodes voor snellere verwerking.
Wat is GPFS?
Applicaties op bedrijfsniveau werken met meerdere schijven met mogelijk petabytes aan opgeslagen data. Het IBM GPFS-bestandssysteem maakt een snelle levering van data mogelijk om knelpunten door tragere schijfopslagtechnologie te voorkomen. Nieuwe GPFS-technologie distribueert zijn Metadata over meerdere schijfopslagknooppunten, en data wordt ook over meerdere schijven verspreid. Door data over meerdere schijven te verspreiden, kunnen applicaties data van meerdere schijven tegelijk ophalen (d.w.z. parallel), zodat meer data tegelijkertijd kunnen worden opgehaald. Deze technologie lost veelvoorkomende knelpunten op wanneer applicaties worden gedwongen te wachten tot alle data vanaf één schijf worden opgehaald.
Kenmerken van GPFS
Parallelle input en output in GPFS maakt het bestandssysteem een van de betere opties voor AI- en ML-toepassingen, maar de technologie heeft verschillende andere:
- Werkt goed met miljarden bestanden die zijn opgeslagen op een storage area network (SAN)
- Handig beheer en integratie van uw SAN-apparaten en GPFS
- Snelle lees- en schrijfbewerkingen ter ondersteuning van applicaties met gelijktijdige gebruikers met een groot volume
- Leest en schrijft exabytes aan data met lage latency
Gebruikssituaties voor GPFS
High-performance computing (HPC) vereist het beste in technologie, maar bedrijven vergeten vaak dat knelpunten zich voordoen op opslagniveau. U kunt beschikken over de hoogste CPU's, servers, geheugen en netwerkoverdrachtssnelheden die in opslaghardware worden ingevoerd om data te lezen of te schrijven. Maar als uw opslagtechnologie traag is, introduceert u een knelpunt en vertraagt u applicaties.
Een paar use cases voor GPFS:
- Performance engineering voor datacenters
- Applicaties die grote hoeveelheden dataverwerking vereisen
- Inname en verwerking van machine learning en artificiële intelligentie
- Multi-applicatie opslag en verwerking
- High-volume storage van meerdere petabytes
GPFS-architectuur
GPFS maakt gebruik van gedistribueerde architectuur, wat betekent dat data meerdere opslagapparaten omvatten. Meerdere servers of SAN-locaties bevatten uw data, en meerdere netwerkverbindingen koppelen deze opslagapparaten. Wanneer een applicatie data moet lezen, kan deze meerdere netwerklocaties gebruiken om data parallel te lezen, wat betekent dat data tegelijkertijd worden gelezen vanuit alle opslaglocaties.
Een paar belangrijke componenten in de GPFS-architectuur:
- Data worden opgeslagen op meerdere opslaglocaties, maar Metadata die de data beschrijven, worden ook opgeslagen op meerdere servers.
- Servers die data opslaan, kunnen zich op meerdere cloud- of on-premises-locaties bevinden.
- Snelle netwerkverbindingen koppelen opslaglocaties en applicaties met elkaar met behulp van GPFS-opslag.
- Geavanceerde technologieën voor opslagapparaten zijn essentieel.
GPFS vs. traditionele bestandssystemen
GPFS wordt vaak vergeleken met het Hadoop Distributed File System (HDFS). Beide zijn bedoeld om grote hoeveelheden data op te slaan, maar ze hebben een aantal verschillen die de prestaties en schaalbaarheid beïnvloeden. Hoewel beide bestandssystemen data opsplitsen en opslaan op nodes in het netwerk, heeft GPFS Posix semantics om compatibiliteit mogelijk te maken met verschillende Linux-distributies en besturingssystemen, waaronder Windows.
Grote primaire en secundaire Metadata serverszijn nodig voor Hadoop-indexering, maar GPFS distribueert Metadata over het systeem zonder dat er gespecialiseerde servers nodig zijn. Gedistribueerde data bevinden zich ook in kleinere blokken dan Hadoop, dus het lezen gebeurt sneller, vooral omdat data parallel worden gelezen. GPFS heeft meer dataopslagcapaciteit nodig dan Hadoop, maar het is veel sneller tijdens leescycli.
GPFS Best Practices
Om het lezen en schrijven van bestanden op optimale snelheid te houden, moet u er eerst voor zorgen dat u over de netwerkinfrastructuur voor prestaties beschikt. Een GPFS-opslagsysteem zal parallel lezen, dus het hebben van prestatiegerichte netwerkapparatuur zorgt ervoor dat het geen knelpunt is voor dataoverdrachten. Infrastructuur van Pure Storage , waaronder Pure Cloud Block Store™, Portworx® en FlashArray™, behoudt de applicatieprestaties voor grootschalige disk-reads.
Filesharing moet worden gebruikt met montagepunten op directoryniveau, zodat applicaties geen toegang hebben tot het volledige bestandssysteem, inclusief besturingssysteembestanden. Montage op basis van mappen in plaats van volledige schijven beveiligt de data en de integriteit van de serverhostingschijven beter. Beheerders moeten ook gevoelige bestanden scheiden die geen verband houden met applicatieleesprocedures om het risico op onbevoegde toegang te verminderen.
Conclusie
Als u snelle opslag nodig hebt voor krachtige rekenkracht in AI- en machine learning-toepassingen, heeft Pure Storage de infrastructuur om te helpen met de schaalbaarheid die nodig is voor bedrijfsgroei en gebruikerstevredenheid. AI Beheerders kunnen schijven inzetten voor HPC zonder dure provisioning en installatie. Onze HPC-infrastructuur is gebouwd om integriteit, prestaties, schaalbaarheid en next-generation verwerking naar uw snelle applicatie te brengen.