Apache Parquet 파일은 분석 쿼리 시 열상 데이터베이스에 사용되는 오픈소스 데이터 스토리지 형식입니다. 데이터 세트는 작지만 수백만 개의 행을 검색할 수 있다면 더 나은 성능을 위해 열 형식을 사용하는 것이 더 좋을 수 있습니다. 열 데이터베이스는 행별로 그룹화되는 표준 행 기반 데이터베이스가 아닌 열을 그룹화하여 데이터를 저장합니다. Parquet 파일은 여러 열 스토리지 형식 중 하나입니다.
파켓 파일이란?
Excel 스프레드시트나 표준 관계형 데이터베이스와 같은 행을 그룹화하는 대신, Apache Parquet 파일은 더 빠른 성능을 위해 열을 그룹화합니다. 파켓은 데이터베이스 자체가 아닌 열 스토리지 형식이지만, 파켓 형식은 데이터 레이크, 특히 Hadoop에서 일반적입니다. 열 형식이기 때문에 분석 데이터 스토리지와 쿼리에 널리 사용됩니다.
대부분의 개발자는 행 기반 데이터 스토리지에 사용되지만, 이제 번호가 매겨진 행 대신 열이 표시되도록 Excel 스프레드시트를 회전하는 것을 상상해 보십시오. 예를 들어, 각 이름과 성이 하나의 행으로 그룹화되어 있는 이름 및 성 열의 목록을 고객 테이블에 보관하는 대신, Parquet 파일은 열을 함께 저장하여 데이터베이스가 여러 개의 열이 있는 각 행을 검색하는 대신 특정 열의 정보를 보다 신속하게 반환할 수 있도록 합니다.
파켓 파일의 장점
Parquet 파일이 데이터를 저장하는 방식에 기반한 쿼리 성능 외에도, 또 다른 주요 장점은 비용 효율성입니다. Apache Parquet 파일은 압축 및 압축 해제 효율성이 뛰어나 표준 데이터베이스 파일만큼 많은 공간을 차지하지 않습니다. 스토리지 공간을 줄임으로써, 엔터프라이즈 조직은 수천 달러의 스토리지 비용을 절감할 수 있습니다.
컬럼 스토리지 형식은 빅데이터 및 분석 쿼리에 가장 적합합니다. 파켓 파일은 이미지, 비디오, 오브젝트, 파일 및 표준 데이터를 저장할 수 있어 모든 유형의 분석 애플리케이션에 사용할 수 있습니다. Parquet 파일 전략은 오픈소스이기 때문에 데이터 스토리지 및 쿼리 전략을 맞춤화하려는 조직에도 적합합니다.
파켓 파일 작동 방식
Parquet 파일에는 열 기반 스토리지가 포함되어 있지만 메타데이터도 포함되어 있습니다 메타데이터. 쿼리 효율성을 위해 각 행 그룹에서 열이 함께 그룹화되며, 메타데이터는 데이터베이스 엔진이 데이터를 찾는 데 도움이 됩니다. 메타데이터에는 열, 데이터가 포함된 행 그룹 및 스키마에 대한 정보가 포함되어 있습니다.
Parquet 파일의 스키마는 스토리지에 대한 열 기반 접근 방식을 설명합니다. 스키마 형식은 바이너리 형식이며 Hadoop 데이터 레이크 환경에서 사용할 수 있습니다. 파켓 파일은 모든 파일 시스템에 저장할 수 있으므로 Hadoop 환경에만 국한되지 않습니다.
Parquet 파일 스토리지 형식의 한 가지 장점은 사전 푸시다운이라는 전략입니다. 데이터베이스 엔진은 예측 가능한 푸시다운을 통해 처리 초기에 데이터를 필터링하여 더 많은 대상 데이터를 파이프라인으로 전송합니다. 쿼리를 대상으로 하는 데이터가 적기 때문에 쿼리 성능이 향상됩니다. 또한 데이터 처리가 적기 때문에 컴퓨터 리소스 사용량이 줄어들고 비용도 절감됩니다.
파켓 파일 사용
Parquet 파일은 Apache 파일이므로 여러 라이브러리를 가져오는 경우 Python 스크립트에서 만들 수 있습니다. Python에 테이블이 있다고 가정해 봅시다.
import numpy as np
import pandas as pd
import pyarrow as pa
df = pd.DataFrame({'one': [-1, 4, 1.3],
'two': ['blue', 'green', 'white'],
'three': [False, False, True]},
index=list('abc'))
table = pa.Table.from_pandas(df)
이 표를 통해 이제 Parquet 파일을 생성할 수 있습니다.
import pyarrow.parquet as pq
pq.write_table(table, 'mytable.parquet')
위의 코드는 “mytable.parquet” 파일을 생성하고 여기에 표를 씁니다. 이제 즐겨찾는 데이터베이스에서 데이터를 읽고 가져올 수 있으며, 데이터를 쿼리 및 분석에 사용할 수 있습니다.
Python을 사용하여 파일에서 이 표를 읽을 수도 있습니다.
pq.read_table('mytable.parquet', columns=['one', 'three'])
쓰기() 기능을 사용하면 테이블에 파일을 쓸 때 옵션을 설정할 수 있습니다. Apache의 사이트에서 옵션 목록을 찾을 수 있지만, 다음은 Apache Spark와의 파일 호환성을 설정하는 예입니다.
import numpy as np
import pandas as pd
import pyarrow as pa
df = pd.DataFrame({'one': [-1, 4, 1.3],
'two': ['blue', 'green', 'white'],
'three': [False, False, True]},
flavor=’spark’)
table = pa.Table.from_pandas(df)
결론
Hadoop, Apache Spark 또는 기타 호환 가능한 데이터베이스에 Parquet 파일을 사용하려면 Python을 사용하여 파일 생성을 자동화하거나 분석을 위해 데이터베이스 환경으로 파일을 가져올 수 있습니다. 파켓 파일은 스토리지 공간 요구사항을 낮추기 위해 압축을 사용하지만, 대규모 빅데이터 사일로에 과도한 스토리지 용량이 필요합니다. 퓨어스토리지는 중복제거 및 압축 기술을 통해 빅데이터 스토리지를 지원합니다.