퓨어 지식 (Pure Knowledge)
What Is Data Hygiene?

데이터 위생이란?

데이터 위생은 데이터베이스 또는 파일 공유의 모든 정형 또는 비정형 데이터가 “깨끗한”지 확인하는 관행으로, 이는 정확하고 최신 상태이며 오류가 없음을 의미합니다. 데이터 위생은 “데이터 청결도” 및 “데이터 품질”이라고도 합니다.

일반적으로 데이터 품질이 저하되는 이유는 다음과 같습니다.

데이터 중복(데이터 중복이라고도 함): 데이터베이스 내의 레코드가 반복되는 경우
데이터 불완전성: 기록에 필요한 모든 데이터가 존재하지 않는 경우
데이터 불일치: 동일한 데이터가 여러 테이블에서 서로 다른 형식으로 존재하는 경우, 동일한 개체 또는 사람에 대한 서로 다른 정보가 포함된 서로 다른 파일이 발생합니다.
데이터 부정확성: 특정 오브젝트에 대해 저장된 데이터 값이 올바르지 않은 경우

데이터 위생이 중요한 이유는 무엇일까요?

데이터 위생은 보안, 생산성, 규제 및 규정 준수, 효율성을 향상시킵니다. 이는 애플리케이션과 비즈니스 프로세스가 더 이상 필요하지 않은 민감한 개인 데이터를 제거하는 것을 포함하여 깨끗하고 정확하며 관련성이 있는 데이터만 사용하도록 함으로써 가능합니다. 좋은 데이터 관행이 없으면 단서와 브레드 크럼브를 따라 데드 엔드와 잘못된 결정을 내릴 수 있습니다.

다음은 조직의 품질이 저하된 데이터로 인해 발생할 수 있는 문제의 몇 가지 예입니다.

영업 및 마케팅

DiscoverOrg의 연구에 따르면 영업 및 마케팅 부서는 불량 데이터 사용으로 인해 약 550시간, 영업 담당자당 32,000달러의 손실을 입었습니다.

마케팅에서 잘못된 데이터는 과도한 지출로 이어질 수 있습니다. 또한 데이터 중복으로 인해 동일한 컨텐츠를 한 번 이상 수신하면 잠재 고객이 성가시거나 떨릴 수도 있습니다(예: 동일한 데이터베이스 내에서 동일한 이름의 중복 레코드의 철자가 약간 다를 수 있음).

온라인 판매의 경우, 제품 및 대상 고객에 대한 데이터가 부족한 경우 데이터 위생이 저하되어 잘못된 고객에게 잘못된 제품을 판매하려고 할 수 있습니다.

재무

재무 보고에서 잘못된 데이터는 데이터 불일치로 인해 동일한 질문에 대해 다른 답변을 제공할 수 있으며, 이는 부정확하고 오해의 소지가 있는 재무 보고서로 이어집니다. 이러한 보고서는 잠재적으로 재정적 안정에 대한 잘못된 인식 또는 놀랍게도 재정적 불안감을 줄 수 있습니다.

공급망

또한 잘못된 데이터는 공급망에 큰 피해를 줄 수 있습니다. 신뢰할 수 없는 위치 정보를 기반으로 프로세스 결정을 내리는 경우 프로세스를 자동화하는 것이 매우 어렵기 때문입니다.

전반적인 기업 목표

기업 차원에서 데이터 품질 문제는 장기적인 목표를 달성하는 능력에 상당한 영향을 미칠 수 있습니다. 이는 다음을 유발할 수 있습니다.

새로운 시장 동향과 상황에 신속하게 대응하고 전환하는 능력에 부정적인 영향을 미칩니다.
GDPR, HIPAA 및 CCPA와 같은 주요 개인정보 보호 및 데이터 보호 규정의 규정 준수 요구 사항을 충족하는 데 더 큰 어려움이 있습니다.
기업 데이터에 대한 예측 분석을 활용하기 어렵기 때문에 단기 및 장기 목표 모두에 대해 더 높은 리스크의 결정을 내릴 수 있습니다.

우수한 데이터 위생 유지의 도전과제

우수한 데이터 위생이 중요한 만큼, 많은 기업들이 데이터의 품질을 유지하기 위해 노력하고 있습니다. 하버드 비즈니스 리뷰에서 발표한 한 연구에 따르면, 새로 생성된 데이터 기록의 평균 47%가 최소 1개의 중요한(예: 업무에 영향을 주는) 오류를 가지고 있으며, 데이터 품질 점수의 3%만이 가장 느슨한 표준을 사용하여 “허용 가능”으로 평가되었습니다.

다양한 요인으로 인해 데이터 위생을 최적화하는 것이 어려울 수 있습니다. 그 혜택은 다음과 같습니다:

다양한 데이터 소스의 증가: 기업은 영업 또는 재고 데이터와 같이 자체 비즈니스 시스템에서 생성된 데이터만 사용했습니다. 이제 데이터 소스는 매우 다양하며 인터넷, IoT 장치, 과학 및 실험 데이터 등의 데이터 세트를 포함할 수 있습니다. 데이터 소스가 많을수록 어떤 식으로든 데이터가 변경되거나 조작되지 않도록 하는 것이 더 어렵습니다. 데이터 처리 엔진에 다른 시스템을 추가할 때마다 데이터 소스가 서로 다른 데이터 유형을 생성하므로 데이터가 오염되거나 손실되어 가치가 떨어질 가능성이 높아집니다. 비정형 데이터, 즉 사전 설정된 데이터 모델이나 스키마에 따라 배열되지 않은 정보는 현재 모든 글로벌 데이터의 약 80%를 차지합니다.
데이터 볼륨 증가: 빅데이터의 시대는 의심의 여지 없이 높아지고 있으며 빅데이터는 더 큰 데이터로 거듭났습니다. 1970년 이래로 데이터 양은 3년마다 두 배로 증가했습니다. 데이터가 많을수록, 특정 기간 내에 데이터를 수집, 정리, 통합 및 상당히 높은 품질로 달성하는 것이 더 어렵습니다. 이러한 데이터의 대부분이 비정형 데이터인 경우, 비정형 데이터를 정형 또는 반정형 데이터로 전환하여 데이터 처리의 품질을 더욱 저하시켜야 하기 때문에 처리 시간이 더욱 늘어납니다.
증가하는 데이터 속도: “실시간” 데이터는 지난 5년 동안 큰 유행어가 되었습니다. 데이터가 더 많이 생성될수록 더 빠르게 처리해야 하거나 시스템이 백업될 위험이 있기 때문입니다. 이런 의미에서 데이터는 파이프로 흐르는 액체와 같습니다. 더 빨리 유입될수록 파이프가 파손될 위험이 더 높아지고, 증가하는 볼륨을 처리하는 유일한 방법은 파이프를 더 크게 만드는 것입니다. 데이터의 경우, 파이프를 더 크게 만드는 것은 파이프가 유입되는 속도를 충족하기 위해 더 빠르게 처리하는 것을 의미합니다. 그러나 실제 실시간 처리는 여전히 비교적 새로운 분야와 역량으로, 미사용 또는 관련 없는 데이터의 형태로 여전히 많은 “노이즈”가 사용되고 있음을 의미합니다. 그 결과, 해당 데이터를 기반으로 한 결정은 최적화되지 못하고 최악의 경우 오류가 발생하는 경향이 있습니다.
명확한 데이터 품질 표준 부족: 제품 품질 표준은 국제표준화기구(ISO)가 ISO 9000을 발표한 1987년 이래로 근사해 왔습니다. 반면, 공식 데이터 품질 표준은 2011년(ISO 8000) 이후로 가까워졌습니다. 이는 아직 성숙 중이며 여전히 비교적 새로운 표준입니다. Data Science Journal에 발표된 2015년 연구에 따르면, “현재 빅데이터에 대한 품질 표준 및 품질 평가 방법에 대한 포괄적인 분석 및 연구가 부족하다.”

데이터 위생 모범 사례

데이터 품질 표준은 아직 성숙하고 있지만, 데이터 품질이 높고 높은 상태를 유지하기 위해 현재 채택할 수 있는 특정 데이터 위생 모범 사례가 있습니다.

모범 사례는 다음과 같습니다.

감사

데이터 감사는 우수한 데이터 위생을 유지하는 데 핵심적이며, 일반적으로 모든 데이터 정리 프로세스의 첫 번째 단계입니다. 조치를 취하기 전에 데이터의 품질을 평가하고 회사의 데이터 위생에 대한 현실적인 기준을 수립해야 합니다. 일반적인 데이터 감사는 IT 인프라와 프로세스를 면밀히 검토하여 데이터가 어디에 있는지, 어떻게 사용되는지, 얼마나 자주 업데이트되는지 확인하는 것입니다.

컴플라이언스

수집되는 데이터와 그 이유에 대한 정책을 정의하는 것이 중요합니다. 특히 데이터가 소비자로부터 온 경우 더욱 그렇습니다. 여기에는 데이터 보존 및 제거 정책 강화가 포함됩니다. 보존 일정은 데이터가 제거되기 전에 시스템에 저장되는 기간을 결정합니다. 위생이란 어떤 데이터를 저장하고 있는지, 왜, 어디서, 언제 제거해야 하는지를 아는 것을 의미합니다. 데이터 규정 준수 모범 사례에 대해 자세히 알아보세요.

거버넌스

데이터 거버넌스는 조직이 목표를 달성할 수 있도록 정보를 효과적이고 효율적으로 사용할 수 있도록 하는 프로세스, 역할, 정책, 표준 및 메트릭스의 모음입니다. 데이터 거버넌스는 누가 어떤 조치를 취할 수 있는지, 어떤 데이터, 어떤 상황에서 어떤 방법을 사용할 수 있는지 정의합니다. 우수한 데이터 거버넌스는 조직 전반에서 높은 데이터 품질을 보장하는 데 필수적입니다.

자동화

마지막으로, 우수한 데이터 위생은 데이터 품질 관련 프로세스를 자동화하는 데서 비롯됩니다. 이는 주로 데이터를 항상 최신 상태로 유지하고 수정할 수 있도록 가능한 한 자주 데이터를 자동으로 업데이트하는 것을 의미합니다. 데이터 정리 시스템은 대량의 데이터를 체질하고 알고리즘을 사용하여 이상을 감지하고 인적 오류로 인한 이상치를 식별할 수 있습니다. 또한 데이터베이스를 중복 레코드로 스크러빙할 수도 있습니다.

고품질 데이터의 장점

데이터 품질을 구성하는 몇 가지 속성이 있습니다. 고품질 데이터는 다음과 같습니다.

적시성: 이는 필요에 따라 즉시 생성, 유지 관리 및 제공됩니다.
간결함: 여기에는 외부 정보가 포함되어 있지 않습니다.
일관성: 시스템 내 또는 시스템 간에 정보가 충돌하지 않습니다.
정확성: 정확하고 정확하며 최신 상태입니다.
완료: 필요한 모든 데이터가 존재합니다.
컨포런트: 적절하고 표준화된 형식으로 저장됩니다.
유효 기간: 진정성 있고, 알려진 권위 있는 출처에서 얻은 것입니다.

데이터가 이러한 모든 기준을 충족하면, 사용자, 시스템 및 애플리케이션은 최상의 정보를 바탕으로 고객 서비스를 개선하고, 고객 경험을 향상시키며, 비즈니스 성과를 향상시킬 수 있습니다.

퓨어스토리지 ®로 업계 최고의 데이터 절감 및 중복 제거

중복제거라고도 하는 데이터 중복제거는 스토리지 볼륨 내 또는 전체 스토리지 시스템(크로스 볼륨 중복제거)에서 데이터의 복제본을 제거하는 프로세스입니다. 중복 데이터를 찾고 단일 저장본의 레퍼런스로 교체하기 위하여 패턴 인식을 사용합니다. 퓨어스토리지는 퓨리티//리듀스(Purity//Reduce) 를 통해 5가지 데이터 절감 기술을 퓨어스토리지 사용하여 올플래시 어레이의 공간을 절약합니다. 여기에서 자세히 알아보세요.