Die Daten-Deduplizierung im Storage ist eine grundlegende Technologie zum Verwalten von Datenlasten, die Benutzern jeder Art dabei hilft, Platz zu sparen und Backups schneller durchzuführen. In diesem Artikel beschäftigen wir uns mit der Daten-Deduplizierung im Storage, der Frage, warum sie wichtig ist, wie sie funktioniert und den verschiedenen Arten von Deduplizierungsprozessen.
Was ist Daten-Deduplizierung?
Daten-Deduplizierung ist der Prozess, bei dem redundante Datenkopien eliminiert werden. Es handelt sich um eine Daten-Storage-Optimierungstechnik, die Ressourcen freisetzt, indem sie nicht eindeutige Datensegmente in Datensätzen entfernt.
Warum ist Daten-Deduplizierung wichtig?
Mit dem Aufkommen datengesteuerter Abläufe und des digitalen Arbeitsplatzes verwalten und nutzen Unternehmen jeder Art mehr Daten und senden sie an und von mehr Endpunkten als je zuvor.
Im Laufe der Zeit ist es unvermeidlich, dass sich doppelte, nicht eindeutige Daten in Storage-Systemen ansammeln können, wenn Unternehmen ihren täglichen Betrieb durchführen. Diese redundanten Daten werden weiter verschärft, wenn Sie die Notwendigkeit berücksichtigen, eine gewisse absichtliche Redundanz für Disaster Recovery, Hochverfügbarkeit und Datenschutzzwecke aufrechtzuerhalten.
Doppelte Daten verbrauchen Storage-Platz, der sonst für den Umgang mit den ständig wachsenden Datenmengen, mit denen moderne Unternehmen zu kämpfen haben, umfunktioniert werden könnte. Durch das Entfernen dieser doppelten Daten können Sie Platz freisetzen, ohne zusätzliche Kapazität erwerben zu müssen, um den wachsenden Datenanforderungen gerecht zu werden.
Mit anderen Worten: Die Investition in Solid-Data-Deduplizierungsfunktionen führt direkt zu Storage-Einsparungen. Die Daten-Deduplizierung ist ein grundlegender Prozess, um Unternehmen dabei zu unterstützen, ihre Datenherausforderungen auf möglichst effiziente, optimierte und kostensensible Weise zu bewältigen.
Was sind die Vorteile der Daten-Deduplizierung?
Der offensichtlichste Vorteil besteht darin, dass ein kleinerer Storage-Footprint erforderlich ist. Dies kann für große Unternehmen mit riesigen Datensätzen erhebliche Einsparungen bedeuten, aber die Vorteile gehen über die Budgets hinaus. Mit der Daten-Deduplizierung können Backups schneller durchgeführt werden, wobei weniger Rechen- und Storage-Ressourcen benötigt werden. Benutzer können schneller und mit weniger Fehlern auf Daten zugreifen, die aufgrund von Duplikaten und Konflikten auftreten können.
Es ist sinnvoll zu beachten, dass die Kosten eines aufgeblähten Datenbestands immer wieder anfallen, wenn auf die Daten zugegriffen wird oder sie verschoben werden. Umgekehrt werden die Vorteile einer einmaligen Deduplizierung auch in Zukunft Vorteile bringen.
Deduplizierung ist eine grundlegende Technologie, mit der Computing besser funktioniert. Deshalb ist sie in viele Systeme integriert und standardmäßig ausgeführt.
Wie funktioniert Deduplizierung?
Während es bei der Deduplizierung im Kern darum geht, nicht eindeutige Instanzen von Daten in Ihrem gesamten Datensatz zu entfernen, gibt es einige technische Nuancen, die es wert sind, zu untersuchen, wie die Daten-Deduplizierung unter der Haube funktioniert.
Deduplizierung auf Dateiebene
Die Daten-Deduplizierung auf Dateiebene umfasst die Eliminierung doppelter Dateien. Das System stellt sicher, dass eine Dateikopie nur einmal gespeichert wird und verknüpft andere Verweise mit dieser ersten Datei.
Ein bekanntes Beispiel für Deduplizierung auf Dateiebene ist der Storage-Backup-Prozess. Die meisten Backup-Programme vergleichen standardmäßig die Metadaten des Quell- und Ziel-Volumes und schreiben diese Dateien nur mit aktualisiertem Änderungsverlauf neu, sodass die anderen Dateien nicht mehr benötigt werden. Darüber hinaus haben Benutzer in der Regel die Möglichkeit, alle Dateien, die in der Quelle fehlen, vom Speicherort zu löschen.
In Unternehmensdaten-Umgebungen wird ein ähnlicher Prozess beim Importieren oder Zusammenführen von Dateien oder beim Optimieren von Storage verwendet. Dateisätze werden gescannt und mit einem Index verglichen, wobei nicht eindeutige Dateien einmal gespeichert und nur von ihren ursprünglichen Speicherorten aus verknüpft werden.
Infolgedessen ist der Prozess schneller, da das System weniger Dateien kopiert und der Speicherplatz durch die Eliminierung gelöschter Dateien gespeichert wird.
Deduplizierung auf Blockebene
Die Deduplizierung kann auch auf Blockebene durchgeführt werden, z. B. in einer Datenbank oder Datei. In diesem Fall teilt das System die Informationen in Datensegmente einer festen Größe auf, die als Blöcke bezeichnet werden, und speichert eindeutige Iterationen jedes Segments. Für jedes Objekt wird eine eindeutige Nummer generiert und in einem Index gespeichert. Wenn eine Datei aktualisiert wird, anstatt eine völlig neue Datei zu schreiben, werden nur die geänderten Daten gespeichert. Infolgedessen ist die Block-Deduplizierung effizienter als die Datei-Deduplizierung.
Block-Deduplizierung erfordert jedoch mehr Rechenleistung und einen größeren Index, um die einzelnen Teile zu verfolgen. Die Deduplizierung mit variabler Länge ist eine alternative Methode, bei der Segmente unterschiedlicher Größe verwendet werden, die das Deduplizierungssystem verwenden kann, um bessere Datenreduktionsquoten zu erzielen als bei Blöcken mit fester Länge.
Inline-Deduplizierung im Vergleich zur Nachverarbeitung
Je nach Anwendungsfall kann die Deduplizierung inline durchgeführt werden, d. h., wenn Daten erstmals eingeführt oder importiert werden. Dies führt zu einem geringeren anfänglichen Storage-Footprint, aber die Verarbeitung kann Engpässe verursachen. Da die Inline-Deduplizierung potenziell viel Rechenleistung beansprucht, wird die Verwendung dieser Methode bei täglich genutztem Speicher nicht empfohlen.
Stattdessen kann die Deduplizierung rückwirkend als Nachverarbeitung durchgeführt werden. Bei dieser Methode werden redundante Daten nach der Aufnahme entfernt. Der Vorteil dieses Ansatzes besteht darin, dass die Operationen außerhalb der Geschäftszeiten oder immer dann erfolgen können, wenn der Benutzer dies festlegt. Außerdem kann der Benutzer das System anweisen, Dateien oder Daten zu deduplizieren, die für einen bestimmte Workload benötigt werden. Die Deduplizierung nach der Verarbeitung ermöglicht mehr Flexibilität, erfordert aber auch einen größeren verfügbaren Daten-Storage als die Inline-Deduplizierung.
Daten-Deduplizierung vs. Komprimierung vs. Thin Provisioning
Deduplizierung wird oft mit Komprimierung und Thin Provisioning verglichen oder mit diesen gemischt. Dies sind zwei weitere Methoden zur Reduzierung von Storage-Mengen. Während die Deduplizierung die Anzahl der Dateien oder die Datenmenge eliminiert und reduziert, verwendet die Komprimierung Algorithmen, um die Anzahl der zum Aufzeichnen von Daten erforderlichen Bits zu reduzieren.
Thin Provisioning ist eine Technik zur Beschaffung von Storage- oder Rechenressourcen aus anderen Quellen in einem Netzwerk, z. B. anderen Endbenutzern. Auf diese Weise werden bestehende Ressourcen maximiert, insgesamt weniger benötigt und die Effizienz erhöht.
Was ist Veeam-Deduplizierung?
Veeam Software ist ein in den USA ansässiger Entwickler von Backup, Disaster Recovery und moderner Datenschutzsoftware für virtuelle, Cloud-native, SaaS-, Kubernetes- und physische Workloads. Veeam Backup & Replication kombiniert Komprimierung mit Deduplizierung, um Storage-Einsparungen im gesamten System zu maximieren.
Was ist NTFS-Deduplizierung?
Das neue Technology File System (NTFS) ist ein proprietäres Journaling-Dateisystem, das von Microsoft entwickelt wurde. Die NTFS-Deduplizierung schont Storage, indem sie die Notwendigkeit eliminiert, überschüssige Datenkopien zu speichern, wodurch die freie Storage-Kapazität erheblich erhöht wird.
Erstklassige Datenreduktion mit Pure Storage
Datendeduplizierung ist nur ein Teil des größeren Datenreduktions-Puzzles. Purity Reduce auf FlashArray™ bietet nicht nur eine leistungsstarken Inline-Deduplizierung mit einer variablen Blockgröße von 4KB - 32KB, sondern nutzt auch Musterentfernung, Inline-Komprimierung, tiefe Reduktion und Kopierreduktion, um die granularsten und vollständigsten Datenreduktionsquoten der Flash-Storage-Branche zu erzielen. Erfahren Sie, warum Daten-Deduplizierung mit Pure Storage® FlashArray anders ist.