초심자들을 위한 빅데이터 가이드

Table of Contents

빅데이터란? 빅데이터 ‘V’ 3 요소 빅데이터는 어디서 생겨납니까? 빅데이터의 유형: 정형 및 비정형 빅데이터 수명주기는 어떤 모습일까요? 기업은 빅데이터로 무엇을 할 수 있습니까? 빅데이터는 어떻게 저장됩니까? 엣지 컴퓨팅이 빅데이터에 대한 수요를 주도하는 이유 모든 빅데이터 요구 사항을 충족하는 확장 가능한 올플래시 데이터 스토리지 빅데이터 수요를 충족하기 위해 퓨어스토리지를 사용해야 하는 이유는 무엇일까요?

빅데이터란 무엇일까요? 빅데이터와 조직에서 실행 가능한 인사이트를 도출하는데 필요한 기술에 대해 자세히 알아보세요.

빅데이터란?

오늘날 비즈니스는 다양한 소스로부터 대규모의 데이터를 수집하며, 이러한 데이터는 대부분 실시간 분석을 필요로 합니다. 빅데이터는 기존의 기법으로 처리하기에는 너무 크거나, 빠르거나, 복잡한 데이터를 의미합니다. 또한 예측 분석, 사물인터넷(IoT), 인공지능(AI) 등 인텔리전스 생성 분야와 같이 빅데이터를 통해 실현 가능한 수많은 기술과 전략도 포함합니다.

Research and Markets 보고서에 따르면, 전 세계 빅데이터 시장의 규모는 2026년까지 1,560억 달러에 이를 것으로 예상됩니다. 본 문서에서는 빅데이터의 정의와 발생 경로, 활용 방법 및 기업에서 빅데이터의 성공을 위해 IT 인프라를 준비할 수 있는 방법 등에 대해 알아봅니다.

빅데이터 ‘V’ 3 요소

빅데이터라는 개념은 오랫동안 존재해 왔지만 빅데이터를 정의하는 V로 시작하는 3가지 단어는 2001년 애널리스트 Doug Laney가 처음 만들었습니다. 빅데이터 ‘V’ 3 요소는 다음과 같습니다:

볼륨(Volume): 처리해야 하는 데이터의 양 (일반적으로 기가바이트, 엑사바이트 이상 단위의 대용량의 데이터)
다양성(Variety): 정형 및 비정형 데이터를 모두 포함하며, 여러 소스로부터 발생된 다양한 종류의 데이터
속도(Velocity): 새로운 데이터가 시스템에 진입하는 속력에 의해 정의됨

일부 데이터 전문가들은 V로 시작하는 단어를 4개, 5개, 혹은 그 이상 제시하기도 합니다. V로 시작하는 4번째, 5번째 단어는 다음과 같습니다.

정확성(Veracity): 정확도, 정밀도 및 안정성과 관련된 데이터의 질
가치(Value): 데이터가 기업에 제공하는 가치

V로 시작하는 단어는 42개까지 있지만, 위 5가지 단어가 빅데이터를 정의하는데 가장 많이 사용됩니다.

또한 빅데이터는 어떻게 처리되고 어떤 질문 및 쿼리에 이용되는지에 따라 두 가지 유형으로 구분됩니다.

배치 프로세싱은 장기적인 전략을 수립하거나 중요한 질문에 대한 해답을 구하기 위해 많은 양의 과거 데이터를 함께 활용합니다. 복잡하고 심층적인 분석에 사용되는 대용량의 데이터를 예로 들 수 있습니다.
스트리밍 데이터는 장기적인 질문에 대한 답을 구하기보다는 제조 프로세스의 정확성을 유지하는 것과 같은 시급한 목적으로 즉각적인 실시간 정보를 얻기 위한 것입니다. 일반적으로 빠른 속도로 이동하는 대용량 데이터를 함께 사용합니다. 복잡하지는 않지만 매우 빠른 분석에 사용되는 대용량의 고속 데이터를 예로 들 수 있습니다.

빅데이터와 기존 데이터의 차이점에 대해 자세히 알아보세요.

빅데이터는 어디서 생겨납니까?

빅데이터는 실질적으로 오늘날 수집되는 모든 최신 비정형 데이터와 이러한 데이터가 심층적인 인텔리전스 및 인사이트에 활용되는 방식을 나타내고 있습니다. 빅데이터의 소스는 보통 다음과 같습니다.

사물인터넷 및 수십억 개의 디바이스와 센서에서 나오는 데이터
머신에서 생성하여 로그 분석에 사용되는 로그 데이터
소프트웨어, 플랫폼 및 엔터프라이즈 애플리케이션
소셜 미디어, 거래, 온라인 클릭, 건강 기록, 천연 자원 소비 등 사람들이 생성한 데이터
과학 커뮤니티 등의 조직에서 생성되는 연구 데이터

빅데이터의 유형: 정형 및 비정형

데이터 유형에 따라 필요한 스토리지 유형 또한 다릅니다. 특히 다양한 유형의 데이터베이스, 처리, 저장 및 분석이 필요한 정형 및 비정형 데이터의 경우가 그렇습니다.

정형 데이터는 표 안에 정연하게 들어갈 수 있는 전통적인 데이터를 말합니다. 정형 데이터는 흔히 가격, 날짜, 시간 등과 같은 표준 값의 항목으로 쉽게 분류되고 형식화됩니다.

비정형 데이터는 표 안에 간단하고 쉽게 입력할 수 없는 현대적 데이터입니다. 비정형 데이터는 오늘날의 빅데이터와 동의어인 경우가 많으며 향후 몇 년 안에 전체 데이터의 약 80%를 차지할 것으로 예상됩니다. 이 데이터에는 소셜 미디어, IoT, 콘텐츠 제작, 보안 관제 등에서 생성된 모든 데이터가 포함됩니다. 여기에는 텍스트, 이미지, 사운드 및 비디오가 포함될 수 있습니다. 초고속 통합 파일 및 오브젝트(UFFO) 스토리지인 플래시블레이드(FlashBlade®)와 같은 새로운 스토리지 카테고리를 뒷받침하는 동력이기도 합니다. 비정형 데이터를 활용하려면 더 많은 스토리지, 더 뛰어난 처리 성능, 다양한 데이터 유형의 향상된 통합이 필요합니다.

정형 데이터와 비정형 데이터에 대해 자세히 알아보세요.

빅데이터 수명주기는 어떤 모습일까요?

빅데이터 수명주기는 다음 단계로 구성되지만 이에 국한되지는 않습니다.

데이터가 추출되고 취합됩니다. 데이터는 전사적 자원 관리 시스템, IoT 센서, 마케팅 또는 POS 애플리케이션과 같은 소프트웨어, API를 통한 스트리밍 데이터 등 다양한 소스에서 생겨날 수 있습니다. 이 데이터의 출력은 다양하게 나타나므로 다음 단계인 인입이 중요합니다. 예를 들어, 주식 시장에서 발생하는 데이터는 내부 시스템의 로그 데이터와 크게 다를 것입니다.
데이터가 인입됩니다. ETL(Exchange-transform-load) 파이프라인은 데이터를 올바른 형식으로 변환합니다. SQL 데이터베이스, 데이터 시각화 도구 등 어디로 이동하든 데이터는 해당 도구가 이해할 수 있는 형식으로 변환되어야 합니다. 예를 들어 이름의 형식이 일치하지 않을 수도 있습니다. 데이터가 올바른 형식으로 변환되면 모든 데이터를 분석할 준비가 완료됩니다.
데이터가 처리를 위해 스토리지에 로드됩니다. 다음으로, 데이터는 클라우드 기반 데이터 웨어하우스나 온-프레미스 스토리지 등에 저장됩니다. 이 과정은 데이터가 일괄로 로드되는지 여부, 또는 24시간 내내 이벤트 기반 스트리밍이 발생하는지 여부에 따라 다양한 방식으로 진행될 수 있습니다. (참고: 이 단계는 비즈니스 요구 사항에 따라 변환 단계 전에 실행될 수 있습니다.)

데이터 웨어하우스에 대해 자세히 알아보세요
데이터를 쿼리하고 분석합니다. 현대적인 클라우드 기반 컴퓨팅, 프로세싱 및 스토리지 도구는 빅데이터 수명주기의 발전에 큰 영향을 미치고 있습니다. (참고: Amazon Redshift와 같은 최신 도구를 사용하면 ETL 프로세스를 우회하여 훨씬 빠르게 데이터를 쿼리할 수 있습니다.)
데이터가 아카이빙됩니다. 시간이 중요한 데이터 중 목적을 충족한 데이터가 스토리지로 이동합니다. 콜드 스토리지에 장기간 보관되거나 접근하기 쉬운 웜 스토리지에 보관될 수도 있습니다. 즉각적인 액세스가 더 이상 필요하지 않은 경우, 특히 컴플라이언스 요구 사항을 충족하거나 장기적인 전략적 의사 결정을 알리려는 경우 콜드 스토리지는 경제적이고 공간 효율적인 데이터 저장 방식이 될 수 있습니다. 또한 이 방법은 핫 데이터가 보관되어 있는 서버에 페타바이트 규모의 콜드 데이터까지 저장할 경우 성능에 미치는 영향을 줄일 수 있습니다.

기업은 빅데이터로 무엇을 할 수 있습니까?

빅데이터는 흥미롭고 다양한 용도로 쓰일 수 있습니다. 그리고 무엇보다도 빅데이터터의 가치는 비즈니스 혁신을 가져다주는 통찰력에 있습니다. 일반적으로 빅데이터의 목표와 응용 분야는 다음과 같습니다.

스트리밍 데이터 분석에서 생성되어 알림을 트리거하고 이상 징후를 식별하는 데 사용되는 즉각적인 실시간 통찰력 및 인텔리전스
예측 분석(Predictive analytics)
비즈니스 인텔리전스
머신러닝
부정 행위 및 데이터 침해를 방지하고 보안 리스크를 줄이는 데 도움을 주는 리스크 분석
이미지 인식, 자연어 처리, 신경망 등을 포함한 인공지능(AI)
추천 엔진 및 예측 지원을 통한 사용자 경험 및 고객 인터랙션 개선
각 프로세스의 비용 및 비효율성 절감(기업 내부, 제조 등)
실시간으로 생성되는 수백만 개의 소셜 미디어, 소비자 및 디지털 광고 데이터 포인트에 대한 분석을 활용하여 데이터 기반 마케팅 및 커뮤니케이션 수행

더 많은 산업별 빅데이터 사용 사례 및 응용 분야를 확인하세요.

빅데이터는 어떻게 저장됩니까?

빅데이터는 특히 데이터 저장의 측면에서 고유한 요구 사항이 있습니다. 빅데이터는 실시간 스트리밍 데이터와 마찬가지로 거의 지속적으로 데이터베이스에 기록되고 있으며 매우 다양한 형식을 포함하고 있습니다. 따라서 빅데이터가 분산 파일 시스템에서 실행되려면 스키마가 없는 환경(즉, 비정형 구조)에 저장하는 것이 가장 효과적입니다. 이로써 대규모 데이터 세트 전반에서 병렬로 동시에 처리가 진행될 수 있습니다. 그러므로 빅데이터는 파일 및 오브젝트 데이터를 통합할 수 있는 비정형 스토리지 플랫폼에 매우 적합합니다.

데이터 허브와 데이터 레이크의 차이점에 대해 자세히 알아보세요.

엣지 컴퓨팅이 빅데이터에 대한 수요를 주도하는 이유

사물인터넷(IoT)의 부상으로 분산된 디바이스에서 관리해야 할 데이터 용량이 더욱 증가했습니다.

기존에는 IoT 데이터가 데이터센터와 같은 중앙에서 원격으로 전송 및 처리될 때까지 기다려야 했습니다. 이와 달리 엣지 컴퓨팅은 정보가 "엣지"에서 로컬로 처리되는 분산형 컴퓨팅 토폴로지입니다. 엣지는 새로운 데이터가 생성되는, 사람과 디바이스 간의 교차 지점이라고 할 수 있습니다.

기업은 엣지 컴퓨팅을 통해 비용과 대역폭을 절약할 수 있을 뿐만 아니라, 고객에게 우수한 사용자 경험을 제공하는 효율적인 실시간 애플리케이션을 개발할 수 있습니다. 이러한 트렌드는 5G와 같은 새로운 무선 기술의 출시와 함께 향후 몇 년 동안 가속화될 것입니다.

점점 더 많은 디바이스가 인터넷에 연결됨에 따라 엣지에서 실시간으로 처리해야 하는 데이터의 양도 계속해서 증가할 것입니다. 그렇다면, 엣지 컴퓨팅의 증가하는 데이터 스토리지 요구 사항을 충족할 수 있을 만큼 충분히 분산되고 민첩한 데이터 스토리지는 어떻게 제공할 수 있을까요? 간단합니다. 답은 컨테이너 네이티브 데이터 스토리지입니다.

AWS Snowball, Microsoft Azure Stack, Google Anthos와 같은 여러 기존 엣지 플랫폼은 널리 쓰이는 컨테이너 오케스트레이션 플랫폼인 쿠버네티스를 기반으로 하고 있습니다. 쿠버네티스를 사용하면 이러한 환경의 엣지에서 데이터 인입, 저장, 처리, 분석 및 머신러닝을 위한 워크로드를 실행할 수 있습니다.

엣지에서 실행되는 다중 노드 쿠버네티스 클러스터에는 데이터 중심 워크로드의 특정 요구 사항을 충족하는 효율적인 컨테이너 네이티브 스토리지 엔진이 필요합니다. 다시 말해, 엣지에서 실행되는 컨테이너화된 애플리케이션에는 컨테이너 수준으로 세분화된 스토리지 관리가 필요합니다. 포트웍스(Portworx®)는 컨테이너 SLA를 지원하는 데이터 볼륨을 관리하기 위해 스테이트풀 패브릭을 제공하는 데이터 서비스 플랫폼입니다.

빅데이터와 IoT의 관계에 대해 자세히 알아보세요.

모든 빅데이터 요구 사항을 충족하는 확장 가능한 올플래시 데이터 스토리지

빅데이터를 올플래시 어레이에 호스팅하면 다음과 같은 장점을 누릴 수 있습니다.

높은 속도 (HDD의 55-180 IOPS vs. SSD의 3K-40K IOPS)
I/O 연산에 64K queues 이상 대규모 병렬 처리
NVMe의 고성능 및 높은 안정성

빅데이터 수요를 충족하기 위해 퓨어스토리지를 사용해야 하는 이유는 무엇일까요?

빅데이터의 볼륨, 종류 및 처리 속도는 지속적으로 변합니다. 그렇기 때문에, 데이터의 규모와 속도를 유지하기 위해서는 최신 스토리지 기술에 지속적으로 투자하여야 합니다. 플래시 메모리의 발전으로 모든 데이터 티어를 위한 맞춤형 올플래시 스토리지 솔루션을 제공할 수 있게 되었습니다. 퓨어스토리지는 다음을 활용하여 빅데이터 분석 파이프라인을 강화하고 있습니다.