퓨어 지식 (Pure Knowledge)
델타 레이크란?

델타 레이크란? 개요

델타 레이크는 데이터 레이크의 안정성과 성능을 최적화하도록 설계된 오픈소스 데이터 스토리지 프레임워크입니다. 데이터 일관성, 데이터 품질 및 트랜잭션 부족 등 데이터 레이크가 직면한 일반적인 문제들을 해결합니다. 데이터 기반 비즈니스에서 확장 가능한 빅데이터 워크로드를 처리할 수 있는 데이터 스토리지 솔루션을 제공하는 것이 목표입니다.

델타 레이크 출발지

델타 레이크는 2019년 Apache Spark 기업인 Databricks에 의해 오픈 표준 및 부분 오픈 소스에 구축된 클라우드 테이블 형식으로 출시되어 ACID 보증, 동시 재작성, 데이터 이동성 등과 같은 현대적인 데이터 플랫폼의 t-요청 기능을 지원합니다.

델타 레이크의 목적이나 주요 용도는 무엇인가요?

델타 레이크는 데이터 레이크의 사용을 지원하고 강화하기 위해 구축되었으며, 이는 대량의 정형 및 비정형 데이터를 보유하고 있습니다.

데이터 사이언티스트와 데이터 분석가는 데이터 레이크를 사용하여 방대한 데이터 세트에서 귀중한 인사이트를 조작하고 추출합니다. 데이터 레이크는 데이터 관리 방식에 혁신을 가져왔지만, 데이터 품질, 데이터 일관성 및 주요 스키마의 부족 등 몇 가지 한계가 있어 원시 데이터에 대한 머신러닝 및 복잡한 분석 작업을 수행하기가 어렵습니다.

2021년, 학계와 기술 분야의 데이터 과학자들은 이러한 한계로 인해 데이터 레이크가 곧 데이터 웨어하우징과 고급 분석을 통합하는 개방형 플랫폼인 “레이크하우스”로 교체될 것이라고 주장했습니다.

그림 1: Michael Armbrust, Ali Ghodsi, Reynold Xin 및 Matei Zaharia가 작성한 논문의 데이터 레이크하우스 시스템 설계 예시. 델타 레이크는 개방형 형식의 파일에 트랜잭션, 버전 관리 및 보조 데이터 구조를 추가하며 다양한 API 및 엔진으로 쿼리할 수 있습니다.

델타 레이크는 핵심 데이터 스토리지 계층을 제공함으로써 모든 레이크하우스 인프라에서 중요한 부분을 차지합니다.

델타 레이크의 정의:

개방성: 이는 빠르게 확장되는 통합 생태계로, 커뮤니티 중심입니다.
단순성: 레이크하우스에서 ETL, 데이터 웨어하우스 및 머신러닝을 통합하는 단일 형식을 제공합니다.
프로덕션 준비: 10,000개 이상의 프로덕션 환경에서 전투 테스트를 거쳤습니다.
플랫폼에 구애받지 않음: 클라우드, 온-프레미스 또는 로컬에서 모든 쿼리 엔진과 함께 사용할 수 있습니다.

델타 레이크 vs. 데이터 레이크 vs. 데이터 웨어하우스 vs. 데이터 레이크하우스

델타 레이크는 데이터 센터의 광범위한 맥락, 특히 데이터 레이크, 데이터 웨어하우스 및 데이터 레이크 하우스와 함께 사용되는 방식에서 가장 잘 이해됩니다. 자세히 살펴보겠습니다.

델타 레이크

델타 레이크는 실시간 분석, 인공지능(AI) 및 머신러닝(ML) 애플리케이션에 필요한 성능과 민첩성을 유지하면서 원본 데이터의 무결성을 보존하는 오픈소스 스토리지 레이어입니다.

데이터 레이크

데이터 레이크는 다양한 형식의 원시 데이터의 저장소입니다. 데이터 레이크의 볼륨과 다양한 정보는 분석을 어렵게 만들고 데이터 품질과 안정성을 저하시킬 수 있습니다.

데이터 웨어하우스

데이터 웨어하우스는 여러 소스에서 정보를 수집한 다음, 분석 및 보고에 최적화된 대규모의 통합 데이터로 재포맷하고 구성합니다. 독점적인 소프트웨어와 비정형 데이터를 저장할 수 없는 경우 유용성이 제한될 수 있습니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 레이크의 유연성과 확장성을 데이터 웨어하우스의 구조 및 관리 기능과 결합한 현대적인 데이터 플랫폼입니다.

델타 레이크는 어떻게 운영되나요?

델타 레이크는 원시 데이터와 처리 엔진 간의 추상화를 통해 운영됩니다. 데이터 레이크 위에 위치하며 스토리지 시스템을 사용합니다. 데이터를 배치로 나눈 다음, 배치 위에 ACID 트랜잭션을 추가합니다. 또한, 델타 레이크는 레이크에 추가되기 전에 데이터 검증을 위한 스키마를 시행할 수 있습니다.

델타 레이크는 데이터를 파켓 형식으로 저장하며Hadoop Distributed File System (HDFS) 또는 Amazon S3을 스토리지 계층으로 사용합니다. 스토리지 계층은 데이터를 변경할 수 없는 파켓 파일에 저장하며, 스키마를 진화시킬 수 있도록 버전화되어 있습니다.

델타 레이크는 인덱싱을 통해 데이터 성능을 어떻게 향상시키나요?

델타 레이크는 자주 액세스하는 데이터에 대한 색인을 생성하여 데이터 성능을 향상시킵니다. 이러한 인덱스를 통해 데이터 검색 시간을 단축하고 성능을 최적화할 수 있습니다. 모든 데이터베이스는 인덱싱을 사용하지만, 델타 레이크는 자동 메타데이터 분석과 물리적 데이터 레이아웃의 조합을 사용하여 쿼리를 수행하기 위해 스캔된 파일의 수를 줄인다는 점에서 독특합니다.

델타 레이크 건축

델타 레이크는 추가된 데이터 레이어로, 스트리밍 및 배치 처리가 병렬로 이루어지고 결과가 병합되어 쿼리 응답을 제공하는 람다 아키텍처의 진화를 나타냅니다. 이 방법은 스트리밍 및 배치 프로세스의 유지 및 운영에 복잡성과 어려움을 추가합니다.

델타 레이크는 연결된 파이프라인을 통해 공유 파일 스토어에서 스트리밍 및 배치 워크플로우를 결합한 지속적인 데이터 아키텍처를 사용합니다. 저장된 데이터 파일에는 “멀티 홉 아키텍처”라고 하는 3개의 레이어가 있으며, 데이터 흐름에서 다운스트림으로 이동함에 따라 데이터가 더욱 개선됩니다.

브론즈 테이블에는 사물인터넷(IoT) 시스템, CRM, RDBMS 및 JSON 파일과 같은 여러 소스에서 수집된 원시 데이터가 포함됩니다.
실버 테이블에는 변환 및 기능 엔지니어링 프로세스를 거친 후 데이터를 보다 세밀하게 볼 수 있습니다.
골드 테이블은 BI 보고, 분석 또는 머신러닝 프로세스를 위한 최종 사용자를 위한 것입니다.

그림 2: 델타 레이크 건축물.

델타 레이크의 혜택

델타 레이크는 금융, 헬스케어 및 소매 업계를 포함한 강력한 빅데이터 솔루션에 의존하는 모든 기업에 혜택을 줄 수 있습니다.

델타 레이크의 주요 혜택은 다음과 같습니다.

데이터 안정성 향상: 델타 레이크는 트랜잭션 보장 및 스냅샷 분리를 제공하여 데이터 신뢰성을 향상시킵니다. 또한, 사용자는 다른 성공적인 트랜잭션에 영향을 주지 않고 실패한 트랜잭션을 롤백할 수 있습니다. 델타 레이크는 버전 관리 메커니즘을 사용하여 기존 데이터에 영향을 주지 않고 데이터 레이크에 새로운 데이터를 추가합니다.
스키마 진화 지원: 델타 레이크는 데이터 세트의 스키마 진화를 지원할 수 있습니다. 데이터 스키마의 버전 이력을 저장하여 스키마 변경을 처리하고 사용자가 데이터를 쓰기 전에 스키마를 업데이트할 수 있습니다. 또한, 델타 레이크는 데이터를 작성하기 전에 데이터 스키마 검증을 확인합니다.
호환성: 델타 레이크는 Apache Spark, Hadoop, Amazon EMR 등 다양한 빅데이터 처리 엔진과 호환됩니다. 또한 Delta Lake는 SQL과 유사한 쿼리와 통합되어 사용자가 데이터 세트에서 인사이트를 조작하고 추출할 수 있도록 지원합니다.

이러한 모든 혜택은 델타 레이크를 중요한 데이터 스토리지 솔루션으로 만드는 데 도움이 됩니다.

델타 레이크의 단점

델타 레이크에는 다음과 같은 여러 가지 장점이 있습니다.

비정형 데이터에 적합하지 않음: 많은 양의 비정형 데이터를 처리하지 않거나 작은 데이터 스토리지가 필요한 경우, 델타 레이크가 최적의 솔루션이 아닐 수 있습니다. 기존의 데이터 스토리지 솔루션 구현이 더 간단하고 비용 효율적일 수 있습니다.
배우기 쉽지 않음: 델타 레이크는 빅데이터 워크로드를 위한 탁월한 솔루션이지만, 추가 개발 리소스와 구현 시간이 필요할 수 있습니다. 또한, 플랫폼에 처음 접속한 사용자를 위한 가파른 학습 곡선이 있습니다.

델타 레이크 다운로드 및 구현 방법

GitHub 의 Apache Spark 저장소, Delta Lake 웹사이트, Databricks와 같은 인기 있는 제3자 애플리케이션 등 여러 출처에서 Delta Lake를 얻을 수 있습니다. 델타 레이크는 Apache Spark, Hadoop 또는 Amazon EMR과 같은 기존 빅데이터 클러스터에 처리 엔진으로 추가함으로써 구현됩니다.

결론

델타 레이크는 빅데이터 워크로드를 위한 탁월한 솔루션으로, 사용자가 비정형 데이터 세트를 안정적으로 관리할 수 있도록 지원합니다. ACID 트랜잭션, 스키마 검증 및 API 통합과 같은 기능을 제공합니다. 델타 레이크에는 오버헤드 스토리지 요구사항이 있지만, 데이터 기반 비즈니스의 확장을 효과적으로 처리할 수 있습니다. 델타 레이크는 데이터 품질과 안정성을 향상시키는 강력한 프레임워크를 제공하며, 빅데이터 플랫폼에도 유용합니다.

델타 레이크를 지원할 만큼 빠른 오브젝트 스토리지를 갖춘 스토리지 인프라를 찾고 계신가요? 델타 레이크와 플래시블레이드(FlashBlade)®를 통해 오픈 데이터 레이크하우스를 구축하는 방법을 알아보세요.