Skip to Content
Guía

La Guía para principiantes sobre macrodatos

¿Qué son los macrodatos y cómo funcionan? Únase a nosotros para profundizar en los macrodatos y las tecnologías que necesita para extraer información procesable para su organización.

¿Qué son los macrodatos?

Las empresas actuales recogen grandes cantidades de datos de diversas fuentes y a menudo deben analizarse en tiempo real. Los macrodatos se refieren a los datos que son demasiado grandes, demasiado rápidos o demasiado complejos de procesar usando las técnicas tradicionales. Pero también incluye numerosas tecnologías y estrategias que los macrodatos están haciendo posibles, como los campos generadores de inteligencia, como los análisis predictivos, el Internet de las cosas, la inteligencia artificial y más.

Los estudios y los mercados informan de que se espera que el mercado global de macrodatos alcance los 156 000 millones de dólares en 2026 —y las empresas tienen muchas buenas razones para incorporarse—. Aquí puede ver qué son los macrodatos, de dónde proceden, para qué pueden usarse y cómo las empresas pueden preparar sus infraestructuras de TI para el éxito de los macrodatos.

Artículos relacionados

Artículo del blog
Infraestructura de análisis de macrodatos

Las tres frentes de los macrodatos

Si bien el concepto de macrodatos existe desde hace mucho tiempo, el analista del sector Doug Laney fue el primero en acuñar las tres V de los macrodatos en 2001. Las tres V son:

  • Volumen: La cantidad de datos que hay que procesar (normalmente muchos —gigabytes, exabytes o más)
  • Variedad: Los diversos tipos de datos, tanto estructurados como no estructurados, que se transmiten desde muchas fuentes diferentes.
  • Velocidad: La velocidad a la que los nuevos datos se transmiten a su sistema

Algunos expertos en datos amplían la definición a cuatro, cinco o más Vs. La cuarta y la quinta V son:

  • Veracidad: La calidad de los datos con respecto a su precisión y fiabilidad.
  • Valor: El valor que proporcionan los datos: ¿qué valor tiene para su empresa?

Si bien la lista puede llegar hasta los 42 Vs , estos cinco son los que se utilizan con más frecuencia para definir los macrodatos.

También hay dos tipos diferentes de macrodatos, que difieren en cómo se procesan y qué preguntas y consultas se utilizan para responder.

  • El procesamiento por lotes suele usarse con grandes cantidades de datos históricos almacenados para fundamentar estrategias a largo plazo o responder a grandes preguntas. Piense: enormes cantidades de datos con análisis complejos y profundos.
  • La transmisión de datos consiste menos en responder a grandes preguntas que en obtener información inmediata y en tiempo real sobre la marcha, como mantener la precisión de un proceso de fabricación. Normalmente se usa con grandes cantidades de datos que se mueven a un ritmo rápido. Piense en enormes cantidades de datos de alta velocidad con un análisis menos complejo pero extremadamente rápido.

Obtenga más información sobre la diferencia entre los macrodatos y los datos tradicionales.

¿De dónde proceden los macrodatos?

Los macrodatos están pensados para describir todos los datos modernos y no estructurados que se recogen actualmente y cómo se utilizan para la inteligencia y la información en profundidad. Estas fuentes suelen incluir:

  • El Internet de las cosas y los datos de miles de millones de dispositivos y sensores
  • Datos de registro generados por máquinas utilizados para análisis de registros
  • Software, plataformas y aplicaciones empresariales
  • Los seres humanos: redes sociales, transacciones, clics en línea, historias clínicas, consumo de recursos naturales, etc.
  • Datos de investigación de la comunidad científica y de otras organizaciones

Tipos de macrodatos: Estructurado frente a No estructurado

Los diferentes tipos de datos requieren diferentes tipos de almacenamiento. Este es el caso de los datos estructurados y no estructurados, que requieren diferentes tipos de bases de datos, procesamiento, almacenamiento y análisis.

Los datos estructurados son datos tradicionales que pueden caber perfectamente en las tablas. Los datos estructurados suelen categorizarse y formatearse fácilmente en entradas con valores estándar como precios, fechas, horas, etc.

Los datos no estructurados son datos modernos que no son tan sencillos o fáciles de introducir en una tabla. Los datos no estructurados a menudo son sinónimos de macrodatos actualmente y representarán aproximadamente el 80% de los datos en los próximos años. Incluye todos los datos generados por las redes sociales, IoT, los creadores de contenido, la vigilancia y más. Puede incluir texto, imágenes, sonido y vídeo. Es el motor que impulsa las nuevas categorías de almacenamiento, como los archivos y objetos rápidos y unificados (UFFO) de FlashBlade®. Para utilizar los datos no estructurados, las empresas necesitan más almacenamiento, más potencia de procesamiento y una mejor consolidación de numerosos tipos de datos.

Obtenga más información sobre los datos estructurados frente a los datos no estructurados.

¿Cómo es el ciclo de vida de los macrodatos?

El ciclo de vida de los macrodatos puede incluir, entre otros, los siguientes:

  1. Los datos se extraen y recogen . Los datos pueden proceder de diversas fuentes, incluidos los sistemas de planificación de recursos empresariales, los sensores de IoT, el software como las aplicaciones de marketing o de punto de venta, la transmisión de datos a través de API y más. El resultado de estos datos variará, lo que hace que la ingestión sea un paso importante. Por ejemplo, los datos procedentes del mercado bursátil serán muy diferentes de los datos de registro de los sistemas internos.
  2. Los datos se ingieren . Las canalizaciones de carga de intercambio-transformación (ETL) transforman los datos en el formato adecuado. Tanto si se dirige a una base de datos SQL como a una herramienta de visualización de datos, los datos tienen que transformarse en un formato que la herramienta pueda entender. Por ejemplo, los nombres pueden tener formatos incoherentes, en este punto, todos los datos están configurados para el análisis.
  3. Los datos se cargan en el almacenamiento para su procesamiento . Luego, los datos se almacenan en algún lugar, ya sea en un almacén de datos basado en la nube o en un almacenamiento local. Esto puede ocurrir de diferentes maneras, dependiendo de si los datos se cargan en lotes o si la transmisión basada en eventos se produce las 24 horas del día. (Nota: este paso puede producirse antes del paso de transformación, en función de las necesidades de la empresa).

    Más información: ¿Qué es un almacén de datos?

  4. Los datos se consultan y analizan . Las herramientas modernas de computación, procesamiento y almacenamiento basadas en la nube están teniendo un gran impacto en la evolución del ciclo de vida de los macrodatos. (Nota: Ciertas herramientas modernas como Amazon Redshift pueden saltarse los procesos ETL y permitirle consultar los datos mucho más rápidamente). 
  5. Los datos se archivan . Tanto si se almacena a largo plazo en el almacenamiento frío como si se mantiene “caliente” en un almacenamiento más accesible, los datos urgentes que han cumplido su propósito se almacenarán. Si ya no se necesita un acceso inmediato, el almacenamiento en frío es una manera asequible y eficiente del espacio de almacenar los datos, sobre todo si es para cumplir los requisitos de cumplimiento o para fundamentar la toma de decisiones estratégicas a largo plazo. Esto también reduce los impactos en el rendimiento de mantener petabytes de datos fríos en un servidor que también contiene datos calientes.

¿Qué pueden hacer las empresas con los macrodatos?

Hay muchos usos emocionantes y efectivos de los macrodatos. Su valor radica en los avances empresariales que la información sobre macrodatos puede ayudar a impulsar. Los objetivos y las aplicaciones de los macrodatos suelen incluir:

  • Información e inteligencia en tiempo real sobre la marcha, a partir del análisis de los datos de streaming, para activar alertas e identificar anomalías.
  • La analítica predictiva
  • Inteligencia empresarial
  • Aprendizaje automático (Machine Learning)
  • Análisis de riesgos para ayudar a prevenir el fraude y las vulneraciones de datos y reducir los riesgos para la seguridad.
  • La inteligencia artificial, incluido el reconocimiento de imágenes, el procesamiento del lenguaje natural y las redes neuronales.
  • Mejorar la experiencia del usuario y las interacciones con los clientes mediante motores de recomendación y soporte predictivo.
  • Reducir los costes y las ineficiencias en los procesos (internos, de fabricación, etc.).
  • Marketing y comunicaciones basados en datos, con análisis de millones de puntos de datos de redes sociales, consumidores y publicidad digital creados en tiempo real.

Vea más casos de uso y aplicaciones de macrodatos específicos del sector.

¿Cómo se almacenan los macrodatos?

Los macrodatos tienen unas exigencias únicas, sobre todo en lo que se refiere al almacenamiento de datos. Se escribe casi constantemente en una base de datos (como es el caso de los datos de transmisión en tiempo real) y a menudo contiene una gran variedad de formatos. Como resultado, los macrodatos suelen almacenarse mejor en entornos sin esquema (no estructurados) para empezar en un sistema de archivos distribuido, de manera que el procesamiento pueda realizarse en paralelo en conjuntos de datos masivos. Esto hace que sea una gran opción para una plataforma de almacenamiento no estructurado que puede unificar los datos de archivos y objetos.

Obtenga más información sobre la diferencia entre un concentrador de datos y un lago de datos.

Cómo la computación perimetral está impulsando la demanda de macrodatos

El auge del Internet de las cosas (IoT) ha provocado un aumento del volumen de datos que deben gestionarse en flotas de dispositivos distribuidos. 

En lugar de esperar a que los datos del IoT se transfieran y procesen de manera remota en una ubicación centralizada, como un centro de datos, la computación perimetral es una topología informática distribuida en la que la información se procesa localmente en el “borde”: la intersección entre las personas y los dispositivos en los que se crean nuevos datos. 

La computación perimetral no solo ahorra dinero y ancho de banda a las empresas, sino que también les permite desarrollar aplicaciones más eficientes y en tiempo real que ofrecen una experiencia de usuario superior a sus clientes. Esta tendencia solo se acelerará en los próximos años con el despliegue de nuevas tecnologías inalámbricas como el 5G.

A medida que cada vez hay más dispositivos conectados a Internet, la cantidad de datos que deben procesarse en tiempo real y en el borde va a aumentar. Entonces, ¿cómo proporciona un almacenamiento de datos distribuido y lo suficientemente ágil para satisfacer las crecientes demandas de almacenamiento de datos de la computación perimetral? La respuesta corta es el almacenamiento de datos nativo de contenedores. 

Cuando nos fijamos en las plataformas perimetrales existentes, como AWS Snowball, Microsoft Azure Stack y Google Anthos, vemos que todas se basan en Kubernetes , una plataforma de orquestación de contenedores popular. Kubernetes permite que estos entornos ejecuten cargas de trabajo para la ingestión, el almacenamiento, el procesamiento, los análisis y el aprendizaje automático de datos en el borde. 

Un clúster de Kubernetes multinodo que se ejecuta en el borde necesita un motor de almacenamiento eficiente y nativo de contenedores que satisfaga las necesidades específicas de las cargas de trabajo centradas en datos. En otras palabras, las aplicaciones contenedorizadas que se ejecutan en el borde requieren una gestión del almacenamiento granular de contenedores. Portworx ® es una plataforma de servicios de datos que proporciona una estructura con estado para gestionar volúmenes de datos que son conscientes de los contenedores-SLA.

Obtenga más información sobre la relación entre los macrodatos y IoT.

Almacenamiento de datos All-Flash escalable para todas sus necesidades de macrodatos

Las ventajas de alojar macrodatos en cabinas totalmente flash incluyen:

  • Velocidades más altas (55-180 IOPS para HDD frente a 3K-40K IOPS con SSD)
  • Paralelismo masivo con más de 64 000 colas para las operaciones de E/S.
  • Rendimiento y fiabilidad NVMe

¿Por qué elegir Pure Storage ® para sus necesidades de macrodatos?

El volumen, la variedad y la velocidad relativos de los macrodatos cambian constantemente. Si quiere que sus datos se mantengan grandes y rápidos, querrá asegurarse de que invierte constantemente en las últimas tecnologías de almacenamiento. Los avances en la memoria flash han permitido proporcionar soluciones de almacenamiento totalmente flash personalizadas para todos sus niveles de datos. Así es como Pure puede ayudarle a impulsar su pipeline de análisis de macrodatos:

  • Todas las ventajas de las cabinas totalmente flash
  • La consolidación en un hub de datos unificado y eficiente, que puede gestionar el elevado caudal de datos procedente de una gran variedad de fuentes.
  • Actualizaciones del programa Evergreen ™ realmente no disruptivas, sin interrupciones y sin migraciones de datos.
  • Un sistema de gestión de datos simplificado, que combina las ventajas económicas de la nube con el control y la eficiencia de los sistemas locales.

Almacenamiento flash escalable horizontalmente rápido y eficiente con FlashBlade

11/2024
Enhance Data Lakehouse Infrastructure
Pure Storage® has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
Resumen de la solución
3 páginas
CONTACTAR CON NOSOTROS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudarle.

Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes. 

Llámenos al: +34 51 889 8963

Medios de comunicaciónpr@purestorage.com

 

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.