In einer schnelllebigen Umgebung benötigen Sie ein Dateisystem, das gleichzeitige Lesevorgänge von mehreren Knoten ermöglicht. Das IBM General Parallel File System (GPFS) wurde 1998 entwickelt, ist aber eine Option für Unternehmen, die künstliche Intelligenz (AI) und maschinelles Lernen (ML) in ihren Anwendungen einsetzen. Diese Anwendungen benötigen hochvolumigen und leistungsstarken Storage, der von mehreren Knoten aus zugänglich ist, um eine schnellere Verarbeitung zu ermöglichen.
Was ist GPFS?
Anwendungen auf Unternehmensebene funktionieren mit mehreren Festplatten mit potenziell Petabyte an gespeicherten Daten. Das IBM GPFS-Dateisystem ermöglicht eine schnelle Bereitstellung von Daten, um Engpässe durch langsamere Festplatten-Storage-Technologie zu vermeiden. Neue GPFS-Technologie verteilt seine Metadaten auf mehrere Platten-Storage-Knoten, und Daten werden auch auf mehrere Platten verteilt. Durch die Verteilung von Daten auf mehrere Festplatten können Anwendungen Daten von mehreren Festplatten gleichzeitig (d. h. parallel) abrufen, sodass mehr Daten gleichzeitig abgerufen werden können. Diese Technologie überwindet häufige Engpässe, wenn Anwendungen gezwungen sind, darauf zu warten, dass alle Daten von einer einzigen Festplatte abgerufen werden.
Funktionen von GPFS
Parallele Eingabe und Ausgabe in GPFS machen das Dateisystem zu einer der besseren Optionen für AI- und ML-Anwendungen, aber die Technologie hat noch einige andere:
- Funktioniert gut mit Milliarden von Dateien, die in einem Storage Area Network (SAN) gespeichert sind
- Praktische Verwaltung und Integration Ihrer SAN-Geräte und GPFS
- Hochgeschwindigkeitslese- und Schreibvorgänge zur Unterstützung von Anwendungen mit gleichzeitigen Benutzern mit hohem Volumen
- Liest und schreibt Exabyte an Daten mit geringer Latenz
Anwendungsfälle für GPFS
High-Performance Computing (HPC) erfordert das Beste an Technologie, aber Unternehmen vergessen oft, dass Engpässe auf Storage-Ebene auftreten. Sie können die schnellsten CPUs, Server, Speicher und Netzwerkübertragungsgeschwindigkeiten zur Verfügung haben, die in die Storage-Hardware einfließen, um Daten zu lesen oder zu schreiben. Wenn Ihre Storage-Technologie jedoch langsam ist, führen Sie einen Engpass ein und verlangsamen Anwendungen.
Einige Anwendungsfälle für GPFS:
- Performance Engineering für Rechenzentren
- Anwendungen, die hohe Datenverarbeitungsmengen erfordern
- Aufnahme und Verarbeitung von maschinellem Lernen und künstlicher Intelligenz
- Storage und Verarbeitung mehrerer Anwendungen
- Hoher Storage von mehreren Petabytes
GPFS-Architektur
GPFS verwendet eine verteilte Architektur, was bedeutet, dass Daten mehrere Storage-Geräte umfassen. Mehrere Server oder SAN-Standorte speichern Ihre Daten, und mehrere Netzwerkverbindungen verbinden diese Storage-Geräte. Wenn eine Anwendung Daten lesen muss, kann sie mehrere Netzwerkstandorte verwenden, um Daten parallel zu lesen, was bedeutet, dass Daten gleichzeitig von allen Storage-Standorten gelesen werden.
Einige wichtige Komponenten der GPFS-Architektur:
- Daten werden an mehreren Speicherorten gespeichert, aber Metadaten, die die Daten beschreiben, werden auch auf mehreren Servern gespeichert.
- Server, die Daten speichern, können sich an mehreren Cloud- oder lokalen Standorten befinden.
- Schnelle Netzwerkverbindungen verbinden Storage-Standorte und -Anwendungen mit GPFS-Storage.
- Fortschrittliche Technologien für Storage-Geräte sind unerlässlich.
GPFS im Vergleich zu herkömmlichen Dateisystemen
GPFS wird oft mit dem Hadoop Distributed File System (HDFS) verglichen. Beide sind dazu gedacht, große Datenmengen zu speichern, aber sie haben einige Unterschiede, die sich auf Performance und Skalierbarkeit auswirken. Während beide Dateisysteme Daten aufteilen und auf Knoten im gesamten Netzwerk speichern, verfügt GPFS über Posix-Semantik, um die Kompatibilität mit verschiedenen Linux-Distributionen und -Betriebssystemen einschließlich Windows zu ermöglichen.
Große primäre und sekundäre Metadaten sind für die Hadoop-Indexierung erforderlich, aber GPFS verteilt Metadaten im gesamten System, ohne dass spezielle Server erforderlich sind. Verteilte Daten befinden sich auch in kleineren Blöcken als Hadoop, sodass Lesevorgänge schneller erfolgen, insbesondere da Daten parallel gelesen werden. GPFS erfordert mehr Daten-Storage-Kapazität als Hadoop, ist aber während der Lesezyklen viel schneller.
GPFS Best Practices
Um das Lesen und Schreiben von Dateien mit optimaler Geschwindigkeit zu halten, stellen Sie zunächst sicher, dass Sie über die Netzwerkinfrastruktur für die Performance verfügen. Ein GPFS-Storage-System liest parallel, sodass Performance-First-Netzwerkgeräte sicherstellen, dass es keinen Engpass für Datenübertragungen darstellt. Die Infrastruktur von Pure Storage, einschließlich Pure Cloud Block Store™, Portworx® und FlashArray™, erhält die Anwendungs-Performance für großvolumige Festplattenlesevorgänge.
Dateifreigabe sollte mit Mount-Punkten auf Verzeichnisebene verwendet werden, damit Anwendungen nicht auf das gesamte Dateisystem einschließlich Betriebssystemdateien zugreifen. Die Montage auf der Grundlage von Verzeichnissen und nicht auf ganzen Festplatten schützt Daten besser und die Integrität der Server-Hosting-Festplatten. Administratoren sollten auch sensible Dateien trennen, die nicht mit den Anwendungsverfahren zum Lesen zusammenhängen, um das Risiko eines unbefugten Zugriffs zu senken.
Fazit
Wenn Sie schnellen Storage für eine leistungsstarke Rechenleistung in KI- und maschinellen Lernanwendungen benötigen, verfügt Pure Storage über die Infrastruktur, die bei der Skalierbarkeit hilft, die für Geschäftswachstum und Benutzerzufriedenheit erforderlich ist. AI Administratoren können Disks für HPC ohne teure Bereitstellung und Installation bereitstellen. Unsere HPC-Infrastruktur ist darauf ausgelegt, Integrität, Performance, Skalierbarkeit und Verarbeitung der nächsten Generation in Ihre Hochgeschwindigkeitsanwendung zu bringen.