빅데이터의 3가지 도전과제(및 이를 극복하는 방법)
빅데이터는 비정형, 동적 및 복합적인 특성 등 다양한 특징을 가지고 있습니다. 그러나 가장 중요한 것은 빅데이터는 큽니다. 인간과 IoT 센서는 매년 수조 기가바이트의 데이터를 생산하고 있습니다. 그러나 이것은 과거의 데이터가 아닙니다. 현대적인 데이터로, 점점 더 다양한 형식과 더욱 다양한 소스가 있습니다.
이로 인해 오늘날의 데이터와 어제의 시스템 간에 혼란이 발생하고 있습니다. 속도 및 복잡성과 함께, 급증하는 크기와 규모는 기존의 데이터 스토리지 시스템에 새로운 종류의 스트레스를 가하고 있습니다. 많은 기업들이 단순한 장비를 갖추고 있지 않으며, 이러한 금광 데이터를 활용하고자 하는 조직들은 장애물에 직면해 있습니다.
왜 이런 일이 일어나고 있을까요? 알아야 할 빅데이터의 핵심 과제는 무엇일까요? 빅데이터의 성능을 활용하려면 스토리지 솔루션이 이를 극복하기에 충분할까요?
1. 빅데이터가 기존 스토리지에 비해 너무 큽니다.
아마도 빅데이터의 가장 분명한 과제는 엄청난 규모입니다. 일반적으로 페타바이트 단위로 측정합니다(1,024테라바이트 또는 1,048,576기가바이트).
빅데이터가 얼마나 큰지 알 수 있도록 , 페이스북 사용자 들이 시간당 최소 1,458만 장의 사진을 업로드하는 예를 들어보겠습니다. 각 사진은 좋아요, 댓글과 같은 상호작용과 함께 저장됩니다. 사용자는 최소 1조 개의 게시물, 의견 및 기타 데이터 포인트를 “좋아”했습니다.
그러나 방대한 양의 데이터를 저장하고 분석하는 것은 Facebook과 같은 거대 기술 기업만이 아닙니다. 소기업도 브랜드에 대한 사람들의 의견을 확인하기 위해 대용량 데이터 스토리지 아키텍처를 필요로 합니다.
기존의 데이터 스토리지 시스템은 이론적으로 대량의 데이터를 처리할 수 있습니다. 그러나 효율성과 인사이트를 제공해야 할 때, 많은 사람들이 최신 데이터의 수요를 따라잡을 수 없습니다.
관계형 데이터베이스의 공통점
관계형 SQL 데이터베이스는 데이터를 저장, 읽기 및 쓰기 위한 안정적이고 오래된 방법입니다. 그러나 이러한 데이터베이스는 최대 용량을 달성하기 전에도 효율적으로 운영하기 어려울 수 있습니다. 많은 양의 데이터가 포함된 관계형 데이터베이스는 여러 가지 이유로 인해 느려질 수 있습니다. 예를 들어, 관계형 데이터베이스에 레코드를 삽입할 때마다 인덱스가 자동으로 업데이트되어야 합니다. 이 작업은 레코드 수가 증가할 때마다 더 오래 걸립니다. 다른 작업을 삽입, 업데이트, 삭제 및 수행하려면 다른 테이블과의 관계 수에 따라 더 오래 걸릴 수 있습니다.
간단히 말해, 관계형 데이터베이스에 데이터가 많을수록 각 작업이 더 오래 걸립니다.
스케일 업 vs 스케일 아웃
또한 기존 데이터 스토리지 시스템을 확장하여 성능을 향상시킬 수도 있습니다. 그러나 전통적인 데이터 스토리지 시스템은 중앙 집중식이기 때문에, “아웃”이 아닌 “업”으로 확장해야 합니다.
확장은 새로운 시스템을 추가하고, 데이터를 마이그레이션한 다음 여러 시스템에 걸친 부하를 관리해야 하기 때문에 확장보다 리소스 효율성이 떨어집니다. 기존의 데이터 스토리지 아키텍처는 곧 제대로 관리하기에는 너무 많아지고 무분별해집니다.
빅데이터를 위해 기존 스토리지 아키텍처를 사용하려는 시도는 부분적으로 실패할 수 없습니다. 데이터의 양이 충분히 확장하는 것을 비현실적으로 만들기 때문입니다. 따라서 확장이 현실적인 유일한 옵션입니다. 분산 스토리지 아키텍처 사용하면, 주어진 용량에 도달하면 클러스터에 새로운 노드를 추가할 수 있으며, 이는 거의 무한대로 가능합니다.