Skip to Content

데이터 계보란?

데이터 파이프라인이 여러 개 있는 경우, 데이터의 출처, 데이터 변환을 위해 취한 조치 및 저장 위치를 알아야 합니다. 데이터 계보 추적 솔루션을 통해 데이터를 보다 효과적으로 보호하고 기업이 민감한 데이터에 대한 변경 사항을 추적할 수 있습니다. 대부분의 기업은 문서화를 통해 데이터 파이프라인과 데이터 계보를 세부적으로 설명하지만, 소프트웨어 툴을 사용하면 데이터의 변경 사항을 보다 쉽게 모니터링하고 문서화할 수 있습니다.

데이터 계보란?

데이터 계보는 일반적으로 데이터 및 변경 사항을 더 잘 관리하는 데 사용되는 문서 형식입니다. 데이터가 저장되는 곳은 기업들이 데이터가 현지 규정을 준수하는 방식으로 저장된다는 것을 알 수 있도록 문서화됩니다. 엔터프라이즈 데이터 파이프라인에서 원시 데이터는 여러 소스(예: 웹사이트 및 내부 플랫 파일)에서 추출하여 데이터 분석을 위해 정형 데이터베이스 또는 비정형 데이터베이스에 저장하도록 변환할 수 있습니다. 데이터 계보 문서는 데이터가 추출되는 위치와 변경된 부분을 자세히 설명합니다.

데이터 변경, 소스 및 최종 스토리지 위치를 문서화하면 파이프라인이 예상대로 작동하고 오류를 보다 신속하게 수정할 수 있습니다. 예를 들어, 데이터 소스는 구조를 변경할 수 있으므로 데이터 파이프라인은 잘못된 번호가 최종 대상에 저장되는 전화번호를 변경합니다. 데이터 계보 문서를 보유하면 개발자가 오류 발생 위치를 보다 신속하게 파악할 수 있습니다.

데이터 계보의 장점

민감한 데이터는 특정 보안 표준을 사용하여 저장해야 합니다. 데이터 액세스 시 로깅을 수행해야 합니다. 데이터 계보 문서는 규정 준수를 위해 더 나은 결과를 보장하며, 모든 감사 절차 중에 사용할 수 있습니다. 컴플라이언스는 데이터 계보의 중요한 이점 중 하나에 불과합니다.

데이터 변환, 소스 추출 및 스토리지의 최종 대상 단계를 문서화하면 문제 해결이 더욱 효율적입니다. 개발자는 데이터 변환의 모든 단계를 알면 코드를 검증하고 오류를 보다 신속하게 식별할 수 있습니다. 데이터를 고객 대면 애플리케이션에 사용하면 개발자는 데이터가 저장되는 위치를 보다 신속하게 식별할 수 있습니다. 모든 데이터 통합은 더욱 효율적이며, 데이터 계보에 대한 문서를 보유하면 애플리케이션 개발 중에 데이터 무결성이 손실될 위험이 줄어듭니다.

데이터 계보 구현

쉬운 프로젝트처럼 보일 수 있지만, 데이터 계보를 구현하는 것은 엔터프라이즈급 애플리케이션에 엄청난 도전 과제가 될 수 있습니다. 모든 이해관계자가 참여해야 하며, 데이터 계보를 문서화하는 데 필요한 모든 정보를 수집하는 데 몇 개월이 걸릴 수 있습니다. 데이터 계보 프로세스의 기본 단계는 다음과 같습니다.

  1. 이해 관계자와 상의하여 직무에 사용되는 애플리케이션을 이해하십시오.
  2. 개발자와 애플리케이션 데이터 소스에 대해 논의하세요.
  3. 데이터 카탈로그에 대한 메타데이터를 결정합니다.
  4. 메타데이터를 사용하여 데이터 카탈로그를 생성합니다.
  5. 새로운 데이터 계보 추적을 정의하세요.
  6. 문서 추적 절차.
  7. 향후 데이터 변경에 대한 거버넌스를 수립하여 문서가 최신 상태로 유지되도록 합니다.
  8. 이해관계자들과 변화에 대해 논의합니다.
  9. 데이터 계보 추적을 모니터링하고 필요한 경우 변경합니다.

데이터 검색 및 변경 사항 추적은 매우 어려운 일이지만, 툴을 사용해 프로세스를 보다 쉽게 진행할 수 있습니다. 데이터 카탈로그를 만드는 데 도움이 되는 툴도 있고, 데이터 소스를 찾는 툴도 있습니다. 사용하는 것은 프로세스와 달성하고자 하는 것에 따라 달라집니다. 시작을 위한 몇 가지 도구는 다음과 같습니다.

  • Collibra 데이터 계보: 자동으로 데이터 소스를 찾고 소스에서 최종 스토리지 목적지까지 워크플로우를 매핑합니다.
  • 옥토파이: 데이터 카탈로그와 각 데이터 소스에 매핑된 메타데이터를 관리하세요.
  • 아틀란: 데이터 파이프라인을 매핑하고 스토리지 위치와 파이프라인 프로세스가 규정 준수 요건을 준수하는지 확인합니다.

데이터 계보 모범 사례

데이터 계보 프로세스가 붕괴되면, 데이터 소스 추적이 불가능하고, 컴플라이언스 없이 민감한 데이터를 사용할 수 있으며, 파이프라인이 더 이상 제대로 작동하지 않을 때 데이터가 손실될 수 있습니다. 데이터 손실이나 값비싼 규정 준수 위반을 방지하기 위해 데이터 계보 절차에 대한 몇 가지 모범 사례를 따를 수 있습니다. 데이터 계보 및 파이프라인을 안전하게 유지하고 문서화하는 몇 가지 방법은 다음과 같습니다.

  • 파이프라인, 대상 또는 소스가 변경되면 문서를 업데이트하세요.
  • 누가 언제 변경했는지에 대한 정보가 포함된 문서의 버전을 감사하고 기록합니다.
  • 자동화를 통해 납품 속도를 높이고 감독의 위험을 줄일 수 있습니다.
  • 모든 문서 전반에 걸쳐 일관성을 유지하는 명명 규칙을 개발하세요.
  • 데이터를 사용하는 데이터 및 애플리케이션을 담당하는 사람들을 카탈로그화합니다.
  • 문서가 여전히 정확한지 매년 검토하십시오.

도전과제 및 솔루션

데이터 계보는 감사의 한 형태이며, 모든 감사 프로젝트와 마찬가지로 도전 과제가 있을 수 있습니다. 대부분의 감사자들이 직면한 가장 큰 과제는 데이터 소스를 찾고 파이프라인을 데이터 대상에 매핑하는 것입니다. 엔터프라이즈 환경에서 수백 개의 데이터 소스를 보유할 수 있습니다. 데이터 변환에는 여러 단계가 필요할 수 있으며, 데이터는 온사이트 데이터베이스나 클라우드로 전송될 수 있습니다. 데이터 파이프라인을 통해 이동하는 데이터는 찾기 어려울 수 있습니다. 인공지능을 갖춘 디스커버리 툴은 이러한 도전과제에 도움이 되며, 데이터 파이프라인 개발자는 혁신 관련 질문에 도움을 줄 수 있습니다.

개발자와 데이터베이스 관리자는 문서화 없이 변경 작업을 수행하는 경우가 많습니다. 업데이트가 없으면 데이터 계보 문서가 구식이 됩니다. 감사관과 관리자는 데이터 계보 문서가 데이터 파이프라인의 변경 사항을 최신 상태로 유지하는 것이 어렵습니다. 이해 관계자들과 협력하고 개발자들의 문서화가 필요한 정책을 수립하면 이러한 위험을 줄일 수 있습니다. 또한, 툴을 사용하여 변경을 자동화하고 데이터 파이프라인이 변경될 때 알림을 보낼 수 있습니다.

결론

데이터 파이프라인을 변경할 때 규정 준수 및 원활한 전환을 위해 데이터 계보 프로세스를 통해 데이터에 영향을 미치는 모든 소스, 대상 및 변환을 문서화할 수 있습니다. 모든 스토리지 및 액세스 제어가 규정 준수 요건을 따르도록 민감한 데이터를 추적합니다. 퓨어스토리지의 통합 스토리지를 활용하여 데이터의 확장성과 문서화를 개선할 수 있습니다.

03/2025
Automating Distribution Centers with All-Flash
Discover why Carozzi chose Pure Storage to meet the data demands of automating its distribution center with automated guided vehicles.
고객 사례
3 pages
연락처
퓨어스토리지에 문의하기Info icon
Chat icon
질문하기

퓨어스토리지 제품이나 인증 관련 질문이나 코멘트가 있으신가요?   저희가 도와드립니다.

Key icon
데모 예약

라이브 데모를 예약하고 퓨어스토리지가 데이터를 어떻게 강력한 결과로 전환해주는지 직접 확인해 보세요. 

연락하기: +82 2 6001-3330

언론홍보팀:  pr@purestorage.com

 

퓨어스토리지코리아 주소

30F 아셈타워,

517 영동대로,

강남구, 서울

대한민국

korea@purestorage.com

닫기
닫기Close X icon
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.