Skip to Content

기존 스토리지 시스템이 빅데이터를 지원하지 못하는 이유

빅데이터의 3가지 도전과제(및 이를 극복하는 방법)

빅데이터는 비정형, 동적 및 복합적인 특성 등 다양한 특징을 가지고 있습니다. 그러나 가장 중요한 것은 빅데이터는 큽니다. 인간과 IoT 센서는 매년 수조 기가바이트의 데이터를 생산하고 있습니다. 그러나 이것은 과거의 데이터가 아닙니다. 현대적인 데이터로, 점점 더 다양한 형식과 더욱 다양한 소스가 있습니다. 

이로 인해 오늘날의 데이터와 어제의 시스템 간에 혼란이 발생하고 있습니다. 속도 및 복잡성과 함께, 급증하는 크기와 규모는 기존의 데이터 스토리지 시스템에 새로운 종류의 스트레스를 가하고 있습니다. 많은 기업들이 단순한 장비를 갖추고 있지 않으며, 이러한 금광 데이터를 활용하고자 하는 조직들은 장애물에 직면해 있습니다. 

왜 이런 일이 일어나고 있을까요? 알아야 할 빅데이터의 핵심 과제는 무엇일까요? 빅데이터의 성능을 활용하려면 스토리지 솔루션이 이를 극복하기에 충분할까요?

1. 빅데이터가 기존 스토리지에 비해 너무 큽니다.

아마도 빅데이터의 가장 분명한 과제는 엄청난 규모입니다. 일반적으로 페타바이트 단위로 측정합니다(1,024테라바이트 또는 1,048,576기가바이트).

빅데이터가 얼마나 큰지 알 수 있도록 , 페이스북 사용자 들이 시간당 최소 1,458만 장의 사진을 업로드하는 예를 들어보겠습니다. 각 사진은 좋아요, 댓글과 같은 상호작용과 함께 저장됩니다. 사용자는 최소 1조 개의 게시물, 의견 및 기타 데이터 포인트를 “좋아”했습니다. 

그러나 방대한 양의 데이터를 저장하고 분석하는 것은 Facebook과 같은 거대 기술 기업만이 아닙니다. 소기업도 브랜드에 대한 사람들의 의견을 확인하기 위해 대용량 데이터 스토리지 아키텍처를 필요로 합니다.

기존의 데이터 스토리지 시스템은 이론적으로 대량의 데이터를 처리할 수 있습니다. 그러나 효율성과 인사이트를 제공해야 할 때, 많은 사람들이 최신 데이터의 수요를 따라잡을 수 없습니다.

관계형 데이터베이스의 공통점

관계형 SQL 데이터베이스는 데이터를 저장, 읽기 및 쓰기 위한 안정적이고 오래된 방법입니다. 그러나 이러한 데이터베이스는 최대 용량을 달성하기 전에도 효율적으로 운영하기 어려울 수 있습니다. 많은 양의 데이터가 포함된 관계형 데이터베이스는 여러 가지 이유로 인해 느려질 수 있습니다. 예를 들어, 관계형 데이터베이스에 레코드를 삽입할 때마다 인덱스가 자동으로 업데이트되어야 합니다. 이 작업은 레코드 수가 증가할 때마다 더 오래 걸립니다. 다른 작업을 삽입, 업데이트, 삭제 및 수행하려면 다른 테이블과의 관계 수에 따라 더 오래 걸릴 수 있습니다. 

간단히 말해, 관계형 데이터베이스에 데이터가 많을수록 각 작업이 더 오래 걸립니다.

스케일 업 vs 스케일 아웃

또한 기존 데이터 스토리지 시스템을 확장하여 성능을 향상시킬 수도 있습니다. 그러나 전통적인 데이터 스토리지 시스템은 중앙 집중식이기 때문에, “아웃”이 아닌 “업”으로 확장해야 합니다.

확장은 새로운 시스템을 추가하고, 데이터를 마이그레이션한 다음 여러 시스템에 걸친 부하를 관리해야 하기 때문에 확장보다 리소스 효율성이 떨어집니다. 기존의 데이터 스토리지 아키텍처는 곧 제대로 관리하기에는 너무 많아지고 무분별해집니다.

빅데이터를 위해 기존 스토리지 아키텍처를 사용하려는 시도는 부분적으로 실패할 수 없습니다. 데이터의 양이 충분히 확장하는 것을 비현실적으로 만들기 때문입니다. 따라서 확장이 현실적인 유일한 옵션입니다. 분산 스토리지 아키텍처 사용하면, 주어진 용량에 도달하면 클러스터에 새로운 노드를 추가할 수 있으며, 이는 거의 무한대로 가능합니다.

2. 빅데이터는 기존 스토리지에 비해 너무 복잡합니다.

빅데이터와 관련하여 기존 스토리지의 또 다른 주요 과제는 무엇일까요? 데이터 스타일의 복잡성. 기존 데이터는 “정형화”되어 있습니다. 서로 간단한 관계가 있는 행과 열이 있는 테이블로 구성할 수 있습니다.

기존 데이터를 저장하는 데이터베이스 유형인 관계형 데이터베이스는 명확하게 정의된 필드가 포함된 레코드로 구성됩니다. MySQL, Oracle DB 또는 SQL Server와 같은 관계형 데이터베이스 관리 시스템(RDBMS)을 사용하여 이러한 유형의 데이터베이스에 액세스할 수 있습니다.

관계형 데이터베이스는 상대적으로 크고 복잡할 수 있습니다. 수천 개의 행과 열로 구성될 수 있습니다. 그러나 중요한 것은 관계형 데이터베이스를 사용하면 다른 데이터와의 관계를 참조하여 데이터에 액세스할 수 있다는 점입니다.

빅데이터가 기존 데이터 스토리지 시스템의 관계형 행과 열에 항상 잘 맞지는 않습니다. 이는 대부분 비정형화되어 있으며, 수많은 파일 유형으로 구성되며, 종종 이미지, 비디오, 오디오 및 소셜 미디어 콘텐츠를 포함합니다. 이것이 바로 기존 스토리지 솔루션이 빅데이터 작업에 적합하지 않은 이유입니다. 제대로 분류할 수 없습니다.

컨테이너화된 최신 애플리케이션은 또한 새로운 스토리지 문제를 야기합니다. 예를 들어, Kubernetes 애플리케이션은 기존 애플리케이션보다 더 복잡합니다. 이러한 애플리케이션에는 포드, 볼륨 및 구성 맵과 같은 많은 부분이 포함되어 있으며, 자주 업데이트해야 합니다. 기존 스토리지는 Kubernetes를 효과적으로 실행하는 데 필요한 기능을 제공할 수 없습니다.

MongoDB ,Cassandra 또는 Redis와 같은 비관계형(NoSQL) 데이터베이스를 사용하면 복잡하고 다양한 비정형 데이터 세트에 대한 귀중한 인사이트를 얻을 수 있습니다.

3. 빅데이터가 기존 스토리지에 비해 너무 빠릅니다.

기존의 데이터 스토리지 시스템은 안정적인 데이터 보존을 위한 것입니다. 정기적으로 더 많은 데이터를 추가한 다음 새로운 데이터 세트에 대한 분석을 수행할 수 있습니다. 그러나 빅데이터는 거의 즉각적으로 증가하며, 분석은 실시간으로 이루어져야 하는 경우가 많습니다. RDBMS는 빠른 변동을 위해 설계되지 않았습니다.

예를 들어 센서 데이터를 가져옵니다. 사물인터넷(IoT) 디바이스는 최소한의 지연 시간으로 대량의 센서 데이터를 처리해야 합니다. 센서는 “실제 환경”에서 거의 일정한 속도로 데이터를 전송합니다. 기존 스토리지 시스템은 이러한 속도에 도달하는 데이터를 저장하고 분석하는 데 어려움을 겪고 있습니다.

또 다른 예로는 사이버 보안이 있습니다. IT 부서는 기업의 방화벽을 통해 도착하는 각 데이터 패킷을 검사하여 의심스러운 코드가 포함되어 있는지 확인해야 합니다. 많은 기가바이트가 매일 네트워크를 통과할 수 있습니다. 사이버 범죄의 피해자가 되는 것을 방지하기 위해, 분석은 즉시 이루어져야 합니다. 일과 종료 시까지 모든 데이터를 테이블에 저장하는 것은 선택 사항이 아닙니다.

빅데이터의 고속 특성은 프로젝트 실패 또는 미실현 ROI의 근본 원인이 될 수 있는 기존 스토리지 시스템에는 적합하지 않습니다.

4. 현대적인 스토리지 솔루션이 필요한 빅데이터 과제

기존 스토리지 아키텍처는 정형 데이터 작업에 적합합니다. 그러나 비정형 빅데이터의 방대하고 복잡하며 빠른 속도와 관련하여 기업들은 원하는 결과를 얻기 위한 대안을 찾아야 합니다.

분산되고 확장 가능하며 관계 없는 스토리지 시스템은 대량의 복잡한 데이터를 실시간으로 처리할 수 있습니다. 이러한 접근 방식을 통해 기업들은 빅데이터 문제를 쉽게 극복하고 혁신적인 인사이트를 얻을 수 있습니다.

스토리지 아키텍처가 비즈니스 요구 사항을 충족하는 데 어려움을 겪고 있거나, 데이터 성숙 기업의 경쟁력을 확보하고자 하는 경우, 빅데이터의 성능을 활용할 수 있는 현대적인 스토리지 솔루션으로 업그레이드하는 것이 타당할 수 있습니다. 

퓨어스토리지는 모든 규모의 운영에 확장 가능하고 모든 사용 사례에 적합한 간단하고 안정적인 서비스형 스토리지(STaaS) 솔루션을 제공합니다. 자세히 알아보기 또는 지금 바로 시작하세요.

11/2020
VMware Hybrid Cloud Solution Brief | Solution Brief
Hybrid cloud and container adoption are growing rapidly. Advance to an effortless, optimized VMware environment.
솔루션 브리프
3 페이지
연락처
질문하기

퓨어스토리지 제품이나 인증 관련 질문이나 코멘트가 있으신가요?   저희가 도와드립니다.

데모 예약

라이브 데모를 예약하고 퓨어스토리지가 데이터를 어떻게 강력한 결과로 전환해주는지 직접 확인해 보세요. 

연락하기: +82 2 6001-3330

언론홍보팀:  pr@purestorage.com

 

퓨어스토리지코리아 주소

30F 아셈타워,

517 영동대로,

강남구, 서울

대한민국

korea@purestorage.com

닫기
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.