ETL 구현을 위한 모범 사례
우수한 ETL 설계의 핵심은 성능과 정확성입니다. 성능은 기반 인프라에 의존하는 경우가 많기 때문에, 증가하는 부하에 따라 확장하고 따라갈 수 있는 데이터 웨어하우스를 보유하는 것이 중요합니다. 많은 테이블 제약으로 인해 정형 데이터는 변환에 더 많은 시간이 걸리지만, FlashArray ™와 같은 솔루션은 대규모 데이터 가져오기를 위해 구축되어 온프레미스 파이프라인이 지속적으로 빠르게 실행되도록 보장합니다.
항상 규모와 미지의 요소를 고려한 ETL 프로세스를 설계하세요. 변환할 수 없는 레코드를 가져올 가능성이 매우 높습니다. 모든 오류를 기록하고 추가 검토를 위해 기록을 저장해야 합니다. 이는 ETL에 버그가 있거나 ETL 코드 변경으로 복구할 수 있는 엣지 케이스를 놓친다는 것을 의미할 수 있습니다.
모든 ETL 프로세스가 물리적 서버에서 작동하는 것은 아니므로Portworx®와 같은 솔루션은 가상화 및 컨테이너화된 데이터베이스와 분석을 처리합니다. 컨테이너화된 서비스는 더 많은 데이터를 가져오면서 확장되어야 하며, 일반적인 오케스트레이션 툴과 함께 작동합니다. Portworx Kubernetes를 포함한 오케스트레이션 툴과 통합되어 역동적이고 지속적으로 업데이트된 파이프라인을 제공합니다.
ETL의 도전과제 및 솔루션
데이터 소스와 비즈니스 요구 사항이 지속적으로 변화하고 있기 때문에 ETL 설계를 담당하는 관리자는 규모, 업데이트 및 품질 관리와 관련된 문제가 있습니다. 확장성 문제는 일반적으로 스토리지 공간의 제약으로 인해 발생하기 때문에 관리자는 데이터 스토리지 요구 사항이 증가함에 따라 확장되는 스토리지로 이러한 문제를 해결할 수 있습니다.
비즈니스 요구 사항의 변화에 대한 도전과제는 유지보수의 대상이 되는 경우가 많습니다. 데이터 소스는 데이터가 저장되는 방식을 변경하거나, 개발자는 변환 또는 로드 구조를 변경해야 하는 애플리케이션을 변경할 수 있습니다. 제3자 데이터 소스로부터 관리자에게 알릴 문서가 없으면, ETL 프로세스에서 오류가 발생할 때까지 데이터 스토리지 또는 로드 요구 사항에 대한 변경 사항이 나타나지 않습니다. 로깅 및 경고는 관리자가 문제를 조기에 파악하여 ETL 코딩을 변경할 수 있도록 지원합니다. 초기 변경으로 비즈니스 생산성과 수익에 미치는 오류의 영향을 줄일 수 있습니다.
ETL 프로세스의 설계는 가장 어려운 작업 중 하나이지만, 관리자가 이해관계자와 대화하고 비즈니스 규칙이 포함되도록 하면 더 쉬워집니다. ETL 설계를 재설계하고 리팩토링하면 배포가 지연되고 불필요한 오버헤드가 추가될 수 있습니다. ETL 설계에 모든 사례를 포함시켜 과도한 재작성을 방지할 수 있도록 모든 비즈니스 규칙을 문서화합니다.
다양한 ETL 프로세스를 서로 분리 및 독립적으로 유지하세요. 이 솔루션은 한 구성 요소가 고장나도 전체 ETL 프로세스가 실패하지 않도록 보장합니다. 예를 들어, 외부 API가 충돌하는 경우 API를 다시 사용할 수 있을 때까지 다른 모든 소스에서 데이터를 추출 API 하는 작업이 완료됩니다. 필요한 경우 여러 ETL 일정을 생성할 수도 있습니다. 퓨어스토리지 클라우드 스토리지는 여러 클라우드 플랫폼에서 작업하는 경우 AWS , Azure , GCP 및 기타 주요 플랫폼을 지원합니다.
ETL vs. ELT
ETL은 리소스 집약적일 수 있으며, 특히 대규모 데이터 세트를 처리할 때 데이터 가용성에 약간의 지연이 발생할 수 있습니다. 실시간 또는 거의 실시간에 가까운 데이터 처리가 중요한 요건이라면, 변경 데이터 캡처(CDC) 또는 스트리밍 데이터 파이프라인과 같은 다른 데이터 통합 방법이 더 적합할 수 있습니다.
또한, 최근 몇 년 동안 ELT(추출, 로드, 변환)는 ETL에 대한 인기 있는 대안이 되었으며, 특히 목표 데이터 스토리지 시스템 내에서 데이터 변환을 수행할 수 있는 클라우드 기반 데이터 환경에서 그러합니다. ELT는 일부 사용 사례에 대해 비용 효율적이고 확장 가능할 수 있지만, ETL과 ELT의 선택은 특정 요구 사항과 사용 중인 기술에 따라 달라집니다.
결론
ETL 솔루션을 설계하는 데는 시간이 걸리지만, 데이터 스토리지가 증가함에 따라 확장 가능한 시스템을 구축하는 것을 잊지 마십시오. 가장 해결이 쉬운 과제 중 하나는 데이터 스토리지 용량이며, 퓨어스토리지 솔루션은 비정형 및 정형 데이터를 위한 데이터 웨어하우징을 위해 구축되었습니다.
우수한 설계 표준, 문서화 및 품질 보증 테스트를 통해 다른 문제를 해결할 수 있습니다. 일부 툴은 설계에 도움이 될 수 있지만, ETL은 비즈니스에 맞게 맞춤화되는 경우가 많습니다. 스테이징 환경에서 작은 데이터 샘플을 테스트하고, 새로운 비즈니스 요구 사항이 도입됨에 따라 ETL 코딩을 지속적으로 유지할 수 있습니다.