퓨어 지식 (Pure Knowledge)
What Is ETL?

ETL이란?

ETL(추출, 변환 및 로드)은 기업이 여러 소스에서 데이터를 가져와 중앙 위치에 저장해야 할 때 데이터 웨어하우징에서 중요한 프로세스입니다. 프로세스 로직 및 인프라 설계는 비즈니스 요구 사항, 저장 중인 데이터 및 형식이 정형인지 비정형인지에 따라 달라집니다.

ETL이란?

다양한 소스에서 가져온 데이터는 애플리케이션, 머신러닝, 인공지능 및 분석과 함께 작동할 수 있도록 특정 형식으로 저장되어야 합니다. ETL 프로세스는 데이터를 가져와서 특정 형식으로 변환한 다음 데이터베이스에 로드하는 데 사용되는 데이터 소스를 결정하는 비즈니스 규칙 그룹입니다. 데이터는 정형 또는 비정형일 수 있으며, 둘 다일 수도 있습니다.

ETL 프로세스가 진행된 후, 데이터는 데이터 웨어하우스에 저장되어 관리자가 이를 추가로 관리할 수 있습니다. ETL 데이터를 저장하는 데이터베이스를 담당하는 관리자는 로깅, 감사 및 백업을 관리합니다. 또한 ETL 이벤트의 로그 데이터는 관리 분석을 위해 데이터 웨어하우스에 저장되기 전에 자체 데이터 파이프라인을 통과할 수 있습니다.

ETL 프로세스

ETL은 추출, 변환 및 로드의 세 단계로 구성됩니다. 데이터베이스 관리자, 개발자 및 클라우드 아키텍트는 일반적으로 비즈니스 규칙 및 애플리케이션 요구 사항을 사용하여 ETL 프로세스를 설계합니다. ETL 프로세스의 설계는 다음 세 단계를 다룹니다.

추출: 추출을 위한 원시 데이터는 하나 이상의 소스에서 얻을 수 있습니다. 소스는 API, 웹사이트, 다른 데이터베이스, IoT 로그, 파일, 이메일 또는 기타 모든 데이터 형식에서 유래할 수 있습니다. 소스는 다양한 형식을 가질 수 있기 때문에 ETL의 첫 번째 단계는 다음 단계를 위해 소스에서 데이터를 가져옵니다.
변환: 비즈니스 규칙과 대상 스토리지 위치는 변환 설계를 정의합니다. 데이터는 데이터 웨어하우스로 전송되기 전에 포맷, 필터링 및 검증되어야 합니다. 중복 데이터는 분석 결과를 왜곡할 수 있으므로, 중복 라인 항목은 저장하기 전에 제거됩니다. 데이터는 저장할 수 있도록 포맷됩니다. 예를 들어, 하이픈을 사용하거나 사용하지 않고 전화번호를 저장할 수 있으므로, 변환 프로세스는 스토리지로 전송되기 전에 하이픈을 추가하거나 제거합니다.
로드: 변환 후 데이터는 데이터 웨어하우스로 전송되어 저장됩니다. 데이터를 보존하고 중복을 방지해야 하므로, 로드 단계는 ETL 프로세스가 실행될 때마다 점진적인 변화를 고려해야 합니다. ETL은 대기업의 경우 하루에 여러 번 실행되기 때문에 데이터베이스에 이미 저장된 현재 애플리케이션 데이터에 영향을 주지 않고 새로운 데이터만 추가됩니다.

ETL의 장점

ETL 프로세스가 설계되면 하루 종일 자동으로 실행됩니다. 일부 ETL 프로세스는 매주 또는 매월 발생할 수 있으며, 대부분의 데이터베이스 엔진은 서버에서 실행되어 정해진 시간에 작업을 실행하는 스케줄러를 제공합니다. 잘 설계된 ETL 프로세스는 많은 변경이 필요하지 않으며 수동 상호 작용 없이 다양한 소스에서 데이터를 가져올 수 있습니다.

어떠한 변환도 없는 원시 데이터는 일반적으로 분석에 유용하지 않습니다. 특히, 비즈니스가 여러 소스의 유사한 데이터를 사용하는 경우 더욱 그렇습니다. 예를 들어, 트래픽 분석을 수행하는 기업은 여러 정부 출처에서 데이터를 가져올 수 있습니다. 모든 소스가 중복 레코드를 생성할 가능성이 높지만, ETL 프로세스는 데이터를 가져와 중복 레코드를 제거하고 내부 분석 애플리케이션을 위해 데이터를 포맷합니다. 기업들은 수많은 위치에서 데이터를 가져와 내부 분석을 위해 자동으로 준비할 수 있으며, 이는 향후 비즈니스 결정 및 제품 출시에도 도움이 됩니다.

ETL은 데이터 업데이트를 가속화하므로, 현재 또는 실시간 데이터로 작업해야 하는 비즈니스에 도움이 됩니다. 기존에는 데이터 가져오기가 일괄 처리되었고 ETL이 느렸습니다. 기업들은 몇 시간 동안 데이터에 대한 변화를 보지 못할 수도 있지만, 현재의 ETL 기술은 데이터에 대한 업데이트를 제공하여 분석으로 트렌드에 대한 최근 변화를 반영할 수 있도록 합니다.

ETL 툴 및 기술

대규모 데이터 파이프라인의 경우, 대부분의 조직은 ETL을 위한 맞춤형 도구와 스크립트를 사용합니다. 데이터베이스 엔진에는 기업들이 데이터를 가져올 수 있도록 자체 ETL 기능이 함께 제공되는 경우가 많습니다. 데이터를 저장하는 방식은 비정형 또는 정형 데이터가 필요한지 여부에 따라 달라집니다. 정형 데이터는 비정형 데이터보다 더 많은 포맷이 필요하기 때문에 즉시 사용 가능한 툴은 선택한 데이터베이스 플랫폼과 통합되어야 합니다.

ETL을 위한 몇 가지 도구:

인재 양성: 드래그 앤 드롭 데이터 파이프라인 통합을 위한 오픈소스 GUI 제공
Informatica PowerCenter : 비즈니스 프로젝트를 위한 데이터를 가져오고 자체 데이터 파이프라인을 설계할 수 있는 도구를 최종 사용자에게 제공
AWS Glue: 비정형 및 정형 데이터에서 ETL을 설계하여 S3 버킷에 저장 가능
Google 클라우드 데이터 흐름: GCP(Google Cloud Platform)에 데이터를 저장하는 서버리스 ETL 프로세스를 생성할 수 있습니다.

ETL 구현을 위한 모범 사례

우수한 ETL 설계의 핵심은 성능과 정확성입니다. 성능은 기반 인프라에 의존하는 경우가 많기 때문에, 증가하는 부하에 따라 확장하고 따라갈 수 있는 데이터 웨어하우스를 보유하는 것이 중요합니다. 많은 테이블 제약으로 인해 정형 데이터는 변환에 더 많은 시간이 걸리지만, FlashArray ™와 같은 솔루션은 대규모 데이터 가져오기를 위해 구축되어 온프레미스 파이프라인이 지속적으로 빠르게 실행되도록 보장합니다.

항상 규모와 미지의 요소를 고려한 ETL 프로세스를 설계하세요. 변환할 수 없는 레코드를 가져올 가능성이 매우 높습니다. 모든 오류를 기록하고 추가 검토를 위해 기록을 저장해야 합니다. 이는 ETL에 버그가 있거나 ETL 코드 변경으로 복구할 수 있는 엣지 케이스를 놓친다는 것을 의미할 수 있습니다.

모든 ETL 프로세스가 물리적 서버에서 작동하는 것은 아니므로Portworx®와 같은 솔루션은 가상화 및 컨테이너화된 데이터베이스와 분석을 처리합니다. 컨테이너화된 서비스는 더 많은 데이터를 가져오면서 확장되어야 하며, 일반적인 오케스트레이션 툴과 함께 작동합니다. Portworx Kubernetes를 포함한 오케스트레이션 툴과 통합되어 역동적이고 지속적으로 업데이트된 파이프라인을 제공합니다.

ETL의 도전과제 및 솔루션

데이터 소스와 비즈니스 요구 사항이 지속적으로 변화하고 있기 때문에 ETL 설계를 담당하는 관리자는 규모, 업데이트 및 품질 관리와 관련된 문제가 있습니다. 확장성 문제는 일반적으로 스토리지 공간의 제약으로 인해 발생하기 때문에 관리자는 데이터 스토리지 요구 사항이 증가함에 따라 확장되는 스토리지로 이러한 문제를 해결할 수 있습니다.

비즈니스 요구 사항의 변화에 대한 도전과제는 유지보수의 대상이 되는 경우가 많습니다. 데이터 소스는 데이터가 저장되는 방식을 변경하거나, 개발자는 변환 또는 로드 구조를 변경해야 하는 애플리케이션을 변경할 수 있습니다. 제3자 데이터 소스로부터 관리자에게 알릴 문서가 없으면, ETL 프로세스에서 오류가 발생할 때까지 데이터 스토리지 또는 로드 요구 사항에 대한 변경 사항이 나타나지 않습니다. 로깅 및 경고는 관리자가 문제를 조기에 파악하여 ETL 코딩을 변경할 수 있도록 지원합니다. 초기 변경으로 비즈니스 생산성과 수익에 미치는 오류의 영향을 줄일 수 있습니다.

ETL 프로세스의 설계는 가장 어려운 작업 중 하나이지만, 관리자가 이해관계자와 대화하고 비즈니스 규칙이 포함되도록 하면 더 쉬워집니다. ETL 설계를 재설계하고 리팩토링하면 배포가 지연되고 불필요한 오버헤드가 추가될 수 있습니다. ETL 설계에 모든 사례를 포함시켜 과도한 재작성을 방지할 수 있도록 모든 비즈니스 규칙을 문서화합니다.

다양한 ETL 프로세스를 서로 분리 및 독립적으로 유지하세요. 이 솔루션은 한 구성 요소가 고장나도 전체 ETL 프로세스가 실패하지 않도록 보장합니다. 예를 들어, 외부 API가 충돌하는 경우 API를 다시 사용할 수 있을 때까지 다른 모든 소스에서 데이터를 추출 API 하는 작업이 완료됩니다. 필요한 경우 여러 ETL 일정을 생성할 수도 있습니다. 퓨어스토리지 클라우드 스토리지는 여러 클라우드 플랫폼에서 작업하는 경우 AWS , Azure , GCP 및 기타 주요 플랫폼을 지원합니다.

ETL vs. ELT

ETL은 리소스 집약적일 수 있으며, 특히 대규모 데이터 세트를 처리할 때 데이터 가용성에 약간의 지연이 발생할 수 있습니다. 실시간 또는 거의 실시간에 가까운 데이터 처리가 중요한 요건이라면, 변경 데이터 캡처(CDC) 또는 스트리밍 데이터 파이프라인과 같은 다른 데이터 통합 방법이 더 적합할 수 있습니다.

또한, 최근 몇 년 동안 ELT(추출, 로드, 변환)는 ETL에 대한 인기 있는 대안이 되었으며, 특히 목표 데이터 스토리지 시스템 내에서 데이터 변환을 수행할 수 있는 클라우드 기반 데이터 환경에서 그러합니다. ELT는 일부 사용 사례에 대해 비용 효율적이고 확장 가능할 수 있지만, ETL과 ELT의 선택은 특정 요구 사항과 사용 중인 기술에 따라 달라집니다.

결론

ETL 솔루션을 설계하는 데는 시간이 걸리지만, 데이터 스토리지가 증가함에 따라 확장 가능한 시스템을 구축하는 것을 잊지 마십시오. 가장 해결이 쉬운 과제 중 하나는 데이터 스토리지 용량이며, 퓨어스토리지 솔루션은 비정형 및 정형 데이터를 위한 데이터 웨어하우징을 위해 구축되었습니다.

우수한 설계 표준, 문서화 및 품질 보증 테스트를 통해 다른 문제를 해결할 수 있습니다. 일부 툴은 설계에 도움이 될 수 있지만, ETL은 비즈니스에 맞게 맞춤화되는 경우가 많습니다. 스테이징 환경에서 작은 데이터 샘플을 테스트하고, 새로운 비즈니스 요구 사항이 도입됨에 따라 ETL 코딩을 지속적으로 유지할 수 있습니다.