Skip to Content
Guía

La guía para principiantes sobre big data

¿Qué es Big Data y cómo funciona? Únase a nosotros en un análisis profundo de Big Data y las tecnologías que necesita para obtener resultados útiles para su organización.

¿Qué es Big data?

Las empresas de hoy en día recopilan enormes cantidades de datos de diversas fuentes, datos que suelen tener que analizarse en tiempo real. El término big data hace referencia a los datos que son demasiado grandes, rápidos o complejos para procesarse mediante las técnicas tradicionales. Pero también consta de varias tecnologías y estrategias que son posibles gracias a big data como campos de generación de inteligencia, por ejemplo análisis predictivo, internet de las cosas, inteligencia artificial, y más.

La investigación y los mercados informan que se espera que el mercado de big data alcance los $156 mil millones para el 2026, y que las empresas tienen muchas buenas razones para sumarse. Aquí repasaremos sobre lo que es big data, de dónde proviene, para qué puede usarse y de qué forma las empresas pueden preparar sus infraestructuras de TI para el éxito de big data.

Artículos relacionados

Artículo del blog
Infraestructura de análisis de big data

Las tres V de big data

Si bien el concepto de big data existe hace mucho tiempo, el analista de la industria Doug Laney fue el primero en acuñar las tres V de big data en el 2001. Las tres V son las siguientes:

  • Volumen: La cantidad de datos que deben procesarse (suelen ser grandes cantidades, gigabytes, exabytes o mayores).
  • Variedad: La amplia gama de tipos de datos, tanto estructurados como no estructurados, procedentes de diversas fuentes.
  • Velocidad: La velocidad en la que los nuevos datos se transmiten al sistema.

Algunos expertos en datos amplían este concepto a cuatro, cinco o más V. La cuarta y la quinta V son las siguientes:

  • Veracidad: la calidad de los datos en relación con su exactitud, precisión y confiabilidad.
  • Valor: El valor que proporcionan los datos, ¿qué valor tienen para su negocio?

La lista puede llegar hasta las42 V; sin embargo, las cinco que mencionamos aquí son las más utilizadas a la hora de definir el concepto de big data.

También existen dos ideas diferentes de big data, que se diferencian en la forma en que están procesadas y a qué tipos de preguntas y consultas responden.

  • Procesamiento por lote se usa generalmente con una gran cantidad de datos históricos almacenados para informar las estrategias a largo plazo o la respuesta a grandes preguntas. Piense en: gran cantidad de datos con análisis complejo y detallado.
  • Datos de transmisión hace menos referencia a responder grandes preguntas que a obtener información inmediata y en tiempo real para objetivos sobre la marcha, como mantener la precisión de un proceso de fabricación. Generalmente, se usa con grandes cantidades de datos que se mueven a un paso veloz. Piense en: grandes cantidades de datos a gran velocidad con análisis menos complejo pero extremadamente rápido.

Obtenga más información sobre la diferencia entre big data y datos tradicionales.

¿De dónde proviene big data?

Big data está realmente destinado a describir todos los datos modernos y no estructurados que se recopilan hoy y cómo se usan para la inteligencia y el conocimiento detallado. Estas fuentes generalmente incluyen:

  • Internet de las cosas y datos de miles de millones de dispositivos y sensores.
  • Datos de registros generados por computadora para el análisis de los registros.
  • Software, plataformas y aplicaciones empresariales.
  • Humanos: redes sociales, transacciones, clics en línea, registros de salud, consumo de recursos naturales, etc.
  • Datos de investigación de la comunidad científica y otras organizaciones.

Tipos de big data: Estructurados frente a no estructurados

Diferentes tipos de datos requieren diferentes tipos de almacenamiento. Este es el caso con los datos estructurados y no estructurados, que requieren diferentes tipos de bases de datos, procesamiento, almacenamiento y análisis.

Los datos estructurados son datos tradicionales que pueden ajustarse de forma ordenada en tablas. Los datos estructurados por lo general pueden categorizarse y organizarse de forma fácil en entradas con valores estándar como precios, fechas, horas, etc.

Los datos no estructurados son datos modernos que generalmente no son tan fáciles de adaptar en una tabla. En la actualidad, el concepto de datos no estructurados, por lo general, es sinónimo de big data y representará un estimado del 80 % de los datos en los próximos años. Incluye todos los datos generados por las redes sociales, IoT, creadores de contenido, vigilancia y más. Puede incluir texto, imágenes, sonido y videos. Es la fuerza motora que hay detrás de las nuevas categorías de almacenamiento como los objetos y archivos rápidos unificados (UFFO) FlashBlade®. Para usar los datos no estructurados, las empresas necesitan almacenamiento, más poder de procesamiento y mejor consolidación de varios tipos de datos.

Obtenga más información sobre datos estructurados frente a no estructurados.

¿Cómo se ve el ciclo de vida de big data?

El ciclo de vida de big data puede incluir, entre otros, lo siguiente:

  1. Se extraen y recopilan los datos. Los datos pueden provenir de una variedad de fuentes, incluidos los sistemas de planificación de recursos empresariales, sensores de IoT, software como aplicaciones de marketing o puntos de venta, datos de transmisión a través de API, y más. Los resultados de estos datos variarán, esto hará que la incorporación sea un próximo paso importante. Por ejemplo, los datos que provienen del mercado de valores serán muy diferentes a los datos de registro de los sistemas internos.
  2. Se incorporan los datos. Los procesos de extraer, transformar y cargar (ETL) transforman los datos en el formato correcto. Ya sea que apunte a una base de datos de SQL o a una herramienta de visualización de datos, estos deben ser transformados en un formato que la herramienta pueda comprender. Por ejemplo, los nombres pueden encontrarse en formatos inconsistentes. En este punto, los datos están listos para el análisis.
  3. Los datos se cargan en el almacenamiento para ser procesados. Luego, los datos se almacenan en algún lugar, ya sea en un almacenamiento de datos basado en la nube o almacenamiento on-premises. Esto puede suceder de diferentes modos, dependiendo de si los datos están cargados en lotes o si la transmisión basada en eventos ocurre en todo momento. (Nota: este paso se puede dar antes del paso de transformación, dependiendo de las necesidades comerciales).

    Más información: ¿Qué es el almacenamiento de datos?

  4. Se consultan y analizan los datos. Las herramientas informáticas modernas basadas en la nube, procesamiento y almacenamiento tienen un gran impacto en la evolución del ciclo de vida de big data. (Nota: ciertas herramientas modernas como Amazon Redshift pueden evitar los procesos de ETL y permitirle consultar datos de forma mucho más rápida). 
  5. Se archivan los datos. Ya sea que se almacenen por un largo tiempo en el almacenamiento de datos inactivos, o que se mantengan disponibles en un almacenamiento más accesible, los datos urgentes que han cumplido su propósito irán al almacenamiento. Si no se requiere un acceso inmediato, el almacenamiento de datos inactivos es una forma accesible para el uso eficiente de datos, en especial si se debe cumplir requisitos o informar una toma de decisiones estratégica a largo plazo. Esto también reduce los impactos sobre el rendimiento de conservar petabytes de datos inactivos en un servidor que también contiene datos activos.

¿Qué pueden hacer las empresas con big data?

Hay varios usos interesantes y efectivos para big data. Su valor yace en la innovación empresarial que los conocimientos sobre big data pueden ayudar a generar. Los objetivos y las aplicaciones de big data por lo general incluyen:

  • Información e inteligencia en tiempo real y sobre la marcha a partir del análisis de datos de transmisión para disparar alertas e identificar anomalías.
  • Análisis predictivo.
  • Inteligencia empresarial.
  • Aprendizaje automático (Machine Learning).
  • Análisis de riesgos para ayudar a prevenir el fraude y la filtración de información, y reducir los riesgos de seguridad.
  • Inteligencia artificial, incluido el reconocimiento de imágenes, el procesamiento natural del idioma y las redes neurales.
  • Mejora de la experiencia del usuario y las interacciones del cliente a través de motores de recomendaciones y asistencia predictiva.
  • Reducción de costos e ineficiencias en los procesos (internos, de fabricación, etc.).
  • Marketing y comunicaciones generados por datos, con el análisis de millones de redes sociales, consumidores y puntos de datos de publicidad digital creada en tiempo real.

Ver más aplicaciones y casos de uso de big data específicos a la industria.

¿De qué forma se almacena big data?

Big data tiene demandas únicas, en especial en términos de almacenamiento de datos. Se escriben prácticamente de forma constante a una base de datos (como es el caso de los datos de transmisión en tiempo real) y contienen una gran variedad de formatos. Como resultado, big data se almacena de mejor modo en un entorno sin esquema (no estructurado) para comenzar en un sistema de archivos distribuidos de tal manera que pueda darse el procesamiento en paralelo a través de conjuntos de datos masivos. Esto lo hace excelente para una plataforma de almacenamiento no estructurado que pueda unificar los archivos y datos de objetos.

Obtenga más información sobre la diferencia entre hub de datos y data lake.

De qué modo la computación frontera impulsa la demanda de big data

El surgimiento de internet de las cosas (IoT) generó un incremento en el volumen de los datos que debe administrarse a través de flotas de los dispositivos distribuidos. 

En lugar de esperar a que los datos de IoT se transfieran o procesen de forma remota en una ubicación centralizada como el data center, la computación frontera es una topología de computación distribuida en que la información es procesada de forma local en la “frontera”: la intersección entre las personas y los dispositivos, donde se crean nuevos datos. 

La computación frontera no solo ahorra dinero y banda ancha de las empresas, también les permite desarrollar aplicaciones más eficientes y en tiempo real que ofrezcan una experiencia de usuario superior para sus clientes. Esta tendencia solo se acelerará en los próximos años con el lanzamiento de las nuevas tecnologías inalámbricas, como el 5G.

Como cada vez más dispositivos están conectados a internet, se espera un aumento en la cantidad de datos que se debe procesar en tiempo real y en la frontera. Entonces, ¿cómo proporciona almacenamiento de datos lo suficientemente distribuido y ágil como para cumplir con las crecientes demandas de almacenamiento de datos de la computación frontera? La respuesta corta es almacenamiento de datos nativo en contenedores. 

Cuando observamos plataformas frontera existentes, como AWS Snowball, Microsoft Azure Stack y Google Anthos, vemos que están todas basadas en Kubernetes, una plataforma de organización de contenedores popular. Los Kubernetes permiten que estos entornos ejecuten cargas de trabajo para la incorporación de datos, el almacenamiento, el procesamiento, las técnicas de análisis y el aprendizaje automático en la frontera. 

Un clúster de Kubernetes multinodo que se ejecute en la frontera necesita de un motor de almacenamiento nativo en contenedores eficiente que se encargue de las necesidades específicas de las cargas de trabajo centradas en los datos. En otras palabras, las aplicaciones en contenedor que se ejecutan en la frontera requieren de la administración de almacenamiento granular en contenedores. Portworx® es una plataforma de servicios de datos que ofrece una estructura sin pérdida de estado para administrar volúmenes de datos que tienen en cuenta el SLA de los contenedores.

Obtenga más información sobre la relación entre big data e IoT.

Almacenamiento de datos en flash escalable para todas sus necesidades de big data

Los beneficios de alojar big data en matrices basadas íntegramente en tecnología flash incluyen:

  • Velocidades más altas (55-180 IOPS para HDD frente a 3K-40K IOPS para SDD).
  • Paralelismo masivo, con colas de más de 64K para operaciones de entrada/salida (E/S).
  • El rendimiento y la confiabilidad de NVMe.

¿Por qué elegir Pure Storage® para sus necesidades de big data?

El volumen, la variedad y la velocidad relativos de big data cambian de forma constante. Si desea mantener grandes cantidades de datos, y que sean rápidos, deberá asegurarse de invertir sistemáticamente en las nuevas tecnologías de almacenamiento. Los avances en la memoria flash han permitido ofrecer soluciones personalizadas de almacenamiento basado íntegramente en tecnología flash para todos sus niveles de datos. A continuación, le mostramos cómo Pure puede ayudar a impulsar sus procesos de técnicas de análisis de big data:

  • Cuenta con todos los beneficios de las matrices basadas íntegramente en tecnología flash.
  • Está consolidado en un hub de datos unificado y de alto rendimiento que es capaz de manejar una alta tasa de transferencia de datos provenientes de diversas fuentes.
  • Actualizaciones del programa Evergreen™ que realmente no tiene interrupciones, en las que no hay tiempo de inactividad ni migración de datos.
  • Un sistema simplificado de administración de datos, que combina economía de la nube con control y eficiencia en las instalaciones.

Almacenamiento flash de escalabilidad horizontal, rápida y eficiente, con FlashBlade.

11/2024
Enhance Data Lakehouse Infrastructure
Pure Storage® has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
Resumen de la solución
3 páginas
CONTÁCTENOS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudar.

Programe una demostración

Programe una demostración en vivo y compruebe usted mismo cómo Pure puede ayudarlo a transformar sus datos en potentes resultados. 

Llámenos: 800-976-6494

Medios de comunicación: pr@purestorage.com

 

Pure Storage, Inc.

2555 Augustine Dr.

Santa Clara, CA 95054

800-379-7873 (información general)

info@purestorage.com

CERRAR
¡Su navegador ya no es compatible!

Los navegadores más antiguos a menudo representan riesgos de seguridad. Para brindar la mejor experiencia posible al utilizar nuestro sitio, actualice a cualquiera de estos navegadores más recientes.