Skip to Content

Por qué los sistemas de almacenamiento tradicionales no admiten Big Data

3 desafíos de Big Data (y cómo superarlos)

Big data tiene muchas cualidades: no está estructurado, es dinámico y complejo. Pero, quizás lo más importante: Big data es grande. Los sensores de IoT y humanos producen billones de gigabytes de datos cada año. Pero estos no son los datos de ayer: son datos modernos, en una gama cada vez más diversa de formatos y de una variedad cada vez mayor de fuentes. 

Esto lleva a un abismo entre los datos actuales y los sistemas de ayer. El tamaño y la escala puros, junto con su velocidad y complejidad, están poniendo un nuevo tipo de estrés en los sistemas de almacenamiento de datos tradicionales. Muchos simplemente están mal equipados, y las organizaciones que desean hacer uso de esta mina de oro de datos se encuentran con obstáculos. 

¿Por qué sucede esto? ¿Cuáles son los desafíos clave de big data que debe conocer? Si busca aprovechar el poder de big data, ¿sus soluciones de almacenamiento serán suficientes para superarlas?

1. Big Data es demasiado grande para el almacenamiento tradicional

Quizás el más obvio de los desafíos de big data es su enorme escala. Por lo general, lo medimos en petabytes (es decir, 1024 terabytes o 1 048 576 gigabytes).

Para darle una idea de cuán grandes pueden obtener los big data, aquí hay un ejemplo: los usuarios de Facebook cargan al menos 14,58 millones de fotos por hora. Cada foto recopila interacciones almacenadas junto con ella, como “me gusta” y “comentarios”. Los usuarios han “me gustado” al menos un billón de publicaciones, comentarios y otros puntos de datos. 

Pero no son solo los gigantes tecnológicos como Facebook los que almacenan y analizan grandes cantidades de datos. Incluso una pequeña empresa que toma una porción de información de redes sociales, por ejemplo, para ver lo que dicen las personas sobre su marca, requiere una arquitectura de almacenamiento de datos de alta capacidad.

En teoría, los sistemas de almacenamiento de datos tradicionales pueden manejar grandes cantidades de datos. Pero cuando se le asigna la tarea de ofrecer la eficiencia y los resultados que necesitamos, muchos simplemente no pueden cumplir con las demandas de los datos modernos.

El enigma de la base de datos relacional

Las bases de datos SQL relacionales son métodos confiables y usados en el tiempo para almacenar, leer y escribir datos. Pero estas bases de datos pueden tener dificultades para operar de manera eficiente, incluso antes de que hayan alcanzado la capacidad máxima. Una base de datos relacional que contiene grandes cantidades de datos puede volverse lenta por muchas razones. Por ejemplo, cada vez que inserta un registro en una base de datos relacional, el índice debe actualizarse solo. Esta operación lleva más tiempo cada vez que aumenta la cantidad de registros. Insertar, actualizar, eliminar y realizar otras operaciones puede tomar más tiempo dependiendo de la cantidad de relaciones que tengan con otras tablas. 

En pocas palabras: Cuantos más datos haya en una base de datos relacional, más tiempo demorará cada operación.

Escalamiento hacia arriba frente a escalamiento hacia afuera

También es posible escalar los sistemas de almacenamiento de datos tradicionales para mejorar el rendimiento. Pero debido a que los sistemas de almacenamiento de datos tradicionales están centralizados, se ve obligado a escalar “hacia arriba” en lugar de “afuera”.

Escalar hacia arriba es menos eficiente en cuanto a recursos que escalar hacia afuera, ya que requiere que agregue nuevos sistemas, migre datos y luego administre la carga en varios sistemas. La arquitectura de almacenamiento de datos tradicional pronto se vuelve demasiado extensa y difícil de administrar de manera adecuada.

Intentar usar la arquitectura de almacenamiento tradicional para big data está condenado a fallar en parte porque la cantidad de datos hace que sea poco realista escalar lo suficiente. Esto hace que la escalabilidad horizontal sea la única opción realista. Al usar una arquitectura de almacenamiento distribuido, puede agregar nuevos nodos a un clúster una vez que alcance una capacidad determinada, y puede hacerlo prácticamente de forma indefinida.

2. Big Data es demasiado complejo para el almacenamiento tradicional

¿Otro desafío importante para el almacenamiento tradicional cuando se trata de big data? La complejidad de los estilos de datos. Los datos tradicionales son “estructurados”. Puede organizarlo en tablas con filas y columnas que tengan una relación directa entre sí.

Una base de datos relacional, el tipo de base de datos que almacena datos tradicionales, consta de registros que contienen campos claramente definidos. Puede acceder a este tipo de base de datos mediante un sistema de administración de bases de datos relacionales (RDBMS ), como MySQL , Oracle DB o SQL Server.

Una base de datos relacional puede ser relativamente grande y compleja: Puede consistir en miles de filas y columnas. Pero lo que es más importante, con una base de datos relacional, puede acceder a un dato por referencia a su relación con otro dato.

Big data no siempre encaja perfectamente en las filas y columnas relacionales de un sistema de almacenamiento de datos tradicional. En gran medida no está estructurado, consta de una gran cantidad de tipos de archivos y, a menudo, incluye imágenes, videos, audio y contenido de redes sociales. Es por eso que las soluciones de almacenamiento tradicionales no son adecuadas para trabajar con big data: No pueden categorizarlo correctamente.

Las aplicaciones en contenedores modernas también crean nuevos desafíos de almacenamiento. Por ejemplo, las aplicaciones de Kubernetes son más complejas que las aplicaciones tradicionales. Estas aplicaciones contienen muchas partes, como pods, volúmenes y mapas de configuración, y requieren actualizaciones frecuentes. El almacenamiento tradicional no puede ofrecer la funcionalidad necesaria para ejecutar Kubernetes de manera efectiva.

El uso de una base de datos no relacional (NoSQL) como MongoDB, Cassandra o Redis puede permitirle obtener información valiosa sobre conjuntos complejos y variados de datos no estructurados.

3. Big Data es demasiado rápido para el almacenamiento tradicional

Los sistemas de almacenamiento de datos tradicionales son para una retención de datos constante. Puede agregar más datos regularmente y luego realizar análisis en el nuevo conjunto de datos. Pero los big data crecen casi instantáneamente, y el análisis a menudo debe realizarse en tiempo real. Un RDBMS no está diseñado para fluctuaciones rápidas.

Tomemos como ejemplo los datos del sensor. Los dispositivos de Internet de las cosas (IoT) necesitan procesar grandes cantidades de datos de sensores con latencia mínima. Los sensores transmiten datos del “mundo real” a una tasa casi constante. Los sistemas de almacenamiento tradicionales tienen dificultades para almacenar y analizar los datos que llegan a una velocidad tan alta.

O bien, otro ejemplo: la ciberseguridad. Los departamentos de TI deben inspeccionar cada paquete de datos que llega a través del firewall de una empresa para verificar si contiene código sospechoso. Es posible que muchos gigabytes pasen por la red todos los días. Para evitar ser víctima de un delito cibernético, el análisis debe realizarse de forma instantánea: almacenar todos los datos en una tabla hasta el final del día no es una opción.

La naturaleza de alta velocidad de big data no es amable con los sistemas de almacenamiento tradicionales, lo que puede ser una causa raíz de fallas en proyectos o ROI no realizado.

4. Los desafíos de Big Data requieren soluciones de almacenamiento modernas

Las arquitecturas de almacenamiento tradicionales son adecuadas para trabajar con datos estructurados. Pero cuando se trata de la naturaleza vasta, compleja y de alta velocidad de big data no estructurado, las empresas deben encontrar soluciones alternativas para comenzar a obtener los resultados que buscan.

Los sistemas de almacenamiento distribuidos, escalables y no relacionales pueden procesar grandes cantidades de datos complejos en tiempo real. Este enfoque puede ayudar a las organizaciones a superar los desafíos de big data con facilidad y comenzar a obtener información innovadora.

Si su arquitectura de almacenamiento tiene dificultades para mantenerse al día con las necesidades de su negocio, o si desea obtener la ventaja competitiva de una empresa madura de datos, actualizar a una solución de almacenamiento moderna capaz de aprovechar el poder de big data puede tener sentido. 

Pure ofrece una gama de soluciones de almacenamiento como servicio (STaaS) simples y confiables que son escalables para cualquier tamaño de operaciones y adecuadas para todos los casos de uso. Obtenga más información o comience hoy .

11/2020
VMware Hybrid Cloud Solution Brief | Solution Brief
Hybrid cloud and container adoption are growing rapidly. Advance to an effortless, optimized VMware environment.
Resumen de la solución
3 páginas
CONTÁCTENOS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudar.

Programe una demostración

Programe una demostración en vivo y compruebe usted mismo cómo Pure puede ayudarlo a transformar sus datos en potentes resultados. 

Llámenos: 800-976-6494

Medios de comunicación: pr@purestorage.com

 

Pure Storage, Inc.

2555 Augustine Dr.

Santa Clara, CA 95054

800-379-7873 (información general)

info@purestorage.com

CERRAR
¡Su navegador ya no es compatible!

Los navegadores más antiguos a menudo representan riesgos de seguridad. Para brindar la mejor experiencia posible al utilizar nuestro sitio, actualice a cualquiera de estos navegadores más recientes.