Skip to Content

데이터 중복제거란?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

스토리지의 데이터 중복제거는 데이터 로드를 관리하기 위한 기본 기술로, 모든 유형의 사용자가 공간을 절약하고 백업을 더 빠르게 수행할 수 있도록 지원합니다. 이 문서에서는 스토리지의 데이터 중복제거, 데이터 중복제거가 중요한 이유, 작동 방식 및 다양한 유형의 중복제거 프로세스에 대해 살펴봅니다.  

데이터 중복제거란?

데이터 중복제거는 중복 데이터 복사본을 제거하는 프로세스입니다. 이는 데이터 세트 내에서 비고유 데이터 세그먼트를 제거하여 리소스를 확보하는 데이터 스토리지 최적화 기법입니다.  

데이터 중복제거가 중요한 이유는 무엇일까요?

데이터 기반 운영과 디지털 업무 환경이 증가함에 따라, 모든 유형의 조직들은 더 많은 데이터를 관리 및 사용하고 있으며, 그 어느 때보다 더 많은 엔드포인트에서 데이터를 주고받고 있습니다. 

시간이 지남에 따라 조직이 일상적인 운영을 진행함에 따라 스토리지 시스템 내에 중복된 비고유 데이터가 축적될 수 있습니다. 재해 복구, 고가용성 및 데이터 보호를 위해 일부 의도적인 중복성을 유지해야 할 필요성에 대비해 이러한 중복 데이터는 더욱 복잡해집니다. 

중복된 데이터는 오늘날의 조직들이 해결해야 하는 끊임없이 증가하는 데이터 볼륨을 처리하기 위해 용도를 변경할 수 있는 스토리지 공간을 차지합니다. 이러한 중복 데이터를 제거하면 증가하는 데이터 수요를 충족하기 위해 추가 용량을 구매할 필요 없이 공간을 확보할 수 있습니다. 

다시 말해, 솔리드 데이터 중복제거 기능에 대한 투자는 스토리지 절감으로 직접 이어집니다. 데이터 중복제거는 조직이 가장 효율적이고, 간소하며, 비용에 민감한 방식으로 데이터 문제를 해결할 수 있도록 지원하는 기본 프로세스입니다.

데이터 중복제거의 장점은 무엇일까요?

가장 분명한 장점은 더 작은 스토리지 공간이 필요하다는 것입니다. 이는 대규모 데이터 세트가 있는 대규모 조직에 상당한 비용 절감 효과를 제공할 수 있지만, 그 혜택은 예산을 뛰어넘습니다. 데이터 중복제거를 통해 더 적은 컴퓨팅 및 스토리지 리소스로 백업을 더 빠르게 수행할 수 있습니다. 사용자는 중복 및 충돌로 인해 발생할 수 있는 오류를 줄이면서 데이터에 더 빠르게 액세스할 수 있습니다.

데이터가 액세스되거나 이동될 때마다 데이터 에스테이트의 비용이 반복적으로 발생한다는 점에 유의하는 것이 좋습니다. 반대로, 중복 제거를 한 번 수행하면 향후에도 혜택을 계속 제공할 수 있습니다. 

중복 제거는 컴퓨팅의 성능을 향상시키는 기본 기술입니다. 이러한 이유로 많은 시스템에 내장되어 있으며 기본적으로 실행됩니다. 

중복 제거는 어떻게 작동하나요?

중복제거의 핵심은 데이터 세트 전반에 걸쳐 데이터의 비고유한 인스턴스를 제거하는 것이지만, 데이터 중복제거가 후드에서 어떻게 작동하는지에 대해 조사할 만한 몇 가지 기술적 미묘한 차이가 있습니다.

파일 레벨 중복 제거

파일 수준에서 데이터 중복제거는 중복 파일을 제거하는 것을 포함합니다. 시스템은 파일 복사본이 한 번만 저장되도록 하여 다른 참조를 첫 번째 파일에 연결합니다.  

익숙한 파일 수준의 중복 제거의 예는 스토리지 백업 프로세스입니다. 대부분의 백업 프로그램은 기본적으로 소스와 대상 볼륨의 파일 메타데이터를 비교하고, 업데이트된 수정 이력이 있는 파일만 다시 쓰기 때문에 다른 파일만 그대로 둡니다. 또한, 사용자는 일반적으로 스토리지 위치에서 소스에 누락된 모든 파일을 삭제할 수 있습니다. 

엔터프라이즈 데이터 환경에서는 파일을 가져오거나 병합할 때 또는 스토리지를 최적화할 때 유사한 프로세스가 사용됩니다. 파일 세트는 스캔되어 색인과 비교되며, 비고유 파일은 한 번만 저장되고 원래 위치에서만 연결됩니다.

따라서 시스템이 더 적은 수의 파일을 복사하고 삭제된 파일을 제거하여 스토리지 공간을 저장하기 때문에 프로세스가 더 빨라집니다. 

블록 레벨 중복 제거

중복 제거는 데이터베이스나 파일 등 블록 수준에서도 수행될 수 있습니다. 이 경우, 시스템은 정보를 블록이라는 고정된 크기의 데이터 세그먼트로 나누고 각 세그먼트의 고유한 반복을 저장합니다. 각 조각에 대해 고유 번호가 생성되어 인덱스에 저장됩니다. 파일이 업데이트되면 완전히 새로운 파일을 쓰는 대신 변경된 데이터만 저장됩니다. 그 결과, 블록 중복제거는 파일 중복제거보다 더 효율적입니다. 

그러나 블록 중복제거는 더 많은 처리력을 필요로 하며 개별 조각을 추적하기 위해 더 큰 인덱스가 필요합니다. 가변 길이 중복제거는 다양한 크기의 세그먼트를 사용하는 대안적인 방법으로, 중복제거 시스템은 고정 길이 블록보다 더 나은 데이터 절감 비율을 달성하는 데 사용할 수 있습니다. 

인라인 대 후처리 중복제거

사용 사례에 따라 중복 제거를 인라인으로 수행할 수 있으며, 이는 데이터를 처음 도입하거나 가져올 때를 의미합니다. 그 결과 초기 스토리지 설치 공간이 줄어들지만, 처리가 병목될 수 있습니다. 인라인 중복제거 컴퓨팅 성능을 저하시킬 수 있기 때문에 일상적인 스토리지에 이 방법을 사용하는 것은 권장되지 않습니다. 

대신, 사후 처리로서 중복 제거를 소급 수행할 수 있습니다. 이 방법을 사용하면, 중복 데이터는 섭취 후 제거됩니다. 이러한 접근 방식의 장점은 업무 외 시간에 또는 사용자가 지정할 때마다 작업이 발생할 수 있다는 점입니다. 또한, 사용자는 특정 워크로드에 필요한 파일 또는 데이터를 중복 제거하도록 시스템을 지시할 수 있습니다. 후처리 중복제거는 더 많은 유연성을 제공하지만 인라인 중복제거보다 더 큰 데이터 스토리지가 필요합니다.

데이터 중복제거 vs. 압축 vs. 씬 프로비저닝

중복 제거는 스토리지 양을 줄이기 위한 두 가지 다른 방법인 압축 및 씬 프로비저닝과 비교되거나 혼합됩니다. 중복제거는 파일 수나 데이터 양을 없애고 줄이지만, 압축은 알고리즘을 사용하여 데이터를 기록하는 데 필요한 비트 수를 줄입니다. 

씬 프로비저닝은 다른 최종 사용자와 같은 네트워크의 다른 소스에서 스토리지 또는 컴퓨팅 리소스를 소싱하는 기술입니다. 이러한 방식으로 기존 리소스를 최대화하고, 전체 리소스가 적게 필요하며, 효율성이 향상됩니다.

Veeam 중복제거란?

Veeam Software는 가상, 클라우드 네이티브, SaaSKubernetes 및 물리적 워크로드를 위한 백업, 재해 복구 및 현대적인 데이터 보호 소프트웨어를 개발하는 미국 기반 개발자입니다. Veeam Backup & Replication은 압축과 중복제거를 결합하여 시스템 전반에서 스토리지 절감을 극대화합니다. 

NTFS 중복 제거란?

NTFS(New Technology File System)는 Microsoft가 개발한 독점 저널링 파일 시스템입니다. NTFS 중복제거는 과도한 데이터 복사본을 저장할 필요가 없어 스토리지를 절약하며, 무료 스토리지 용량을 크게 증가시킵니다.

퓨어스토리지를 통한 동급 최고의 데이터 절감

데이터 중복제거는 더 큰 데이터 절감 퍼즐의 한 부분일 뿐입니다. FlashArray ™의 퓨리티//리듀스(Purity//Reduce)는 가변 블록 크기 4KB-32KB의 고성능 인라인 중복제거 프로세스를 지원할 뿐만 아니라 패턴 제거, 인라인 압축, 심층 절감 및 복사 절감을 활용하여 플래시 스토리지 업계에서 가장 세밀하고 완전한 데이터 절감 비율을 제공합니다. 퓨어스토리지 ® FlashArray를 통한 데이터 중복제거가 다른 이유를 알아보세요.

02/2024
Optimize Video Surveillance Data with Pure Storage
Enhance prevention, protection, investigation, and response to incidents and threats with smarter infrastructure for video surveillance and AI with Pure Storage.
솔루션 브리프
5 페이지
연락처
질문하기

퓨어스토리지 제품이나 인증 관련 질문이나 코멘트가 있으신가요?   저희가 도와드립니다.

데모 예약

라이브 데모를 예약하고 퓨어스토리지가 데이터를 어떻게 강력한 결과로 전환해주는지 직접 확인해 보세요. 

연락하기: +82 2 6001-3330

언론홍보팀:  pr@purestorage.com

 

퓨어스토리지코리아 주소

30F 아셈타워,

517 영동대로,

강남구, 서울

대한민국

korea@purestorage.com

닫기
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.