Skip to Content

Qué es un almacén de datos

¿Qué es un almacén de datos?

Un almacén de datos (o data warehouse) es un sistema de almacenamiento optimizado para almacenar datos estructurados y realizar las consultas SQL de alta velocidad que son necesarias para proporcionar la inteligencia empresarial en el momento oportuno. Del procesamiento de transacciones a alta velocidad a los análisis predictivos, los almacenes de datos llevan décadas siendo de facto el estándar de almacenamiento que las empresas utilizan para impulsar su inteligencia empresarial.

Las ventajas de los almacenes de datos

Las ventajas de los almacenes de datos incluyen:

  • La consolidación de datos estructurados procedentes de fuentes distintas. 
  • Las consultas analíticas rápidas de bases de datos relacionales.
  • Una solución de almacenamiento específica para unas consultas más baratas y una creación de informes más rápida.

Pruebe FlashBlade

Experimente una instancia de autoservicio de Pure1® para gestionar FlashBlade™ de Pure, la solución más avanzada del sector que proporciona almacenamiento nativo y escalable horizontalmente de archivos y objetos.

Probar Ahora

Cómo funcionan los almacenes de datos

La logística de la recogida de datos de diferentes partes de su empresa para extraer información útil puede escalarse en complejidad a medida que su empresa crece. Los almacenes de datos pueden proporcionar a su empresa una manera fiable de consolidar esa información en una única base de datos y modelo de datos, para permitir  que los analistas ejecuten sus consultas. 

Así es cómo funciona:

  1. Extraer: Recopile datos brutos de las distintas fuentes de su organización (por ejemplo, ERP, CRM, ventas, marketing) en bases de datos de ensayo.
  2. Transformar: Los datos de la capa de ensayo se transfieren a una capa de integración, donde los datos se combinan y se transforman en un almacén de datos operativo (ODS).
  3. Cargar: Los datos se mueven de la capa de integración al almacén de datos definiendo el esquema que sus analistas desean usar para sus consultas SQL antes de escribirlas en una base de datos relacional (esquema sobre escritura). 

La base de datos con la que interactúa en un almacén de datos es relacional, lo que significa que los datos están estructurados —almacenados en tablas que consisten en columnas y filas—. Estas tablas están organizadas por esquemas que se  definieron durante la escritura. 

Cuando el paso de transformación es gestionado por un ODS externo al almacén de datos, se llama ETL (extracción, transformación, carga). Cuando el almacén de datos gestiona las transformaciones internamente, se llama ELT (extracción, carga, transformación). Tanto si utiliza ETL como ELT, los almacenes de datos necesitan datos estructurados y esquemas de escritura para trabajar con bases de datos relacionales.

¿Para qué se utilizan los almacenes de datos?

Las aplicaciones comunes de los almacenes de datos incluyen:

  • Online Transaction Processing (OLTP) Un almacén de datos puede optimizarse para la integridad de los datos y las consultas rápidas para gestionar un gran volumen de transacciones de datos cortas. Un ejemplo son las transacciones que se realizan en una plataforma de negociación de alta frecuencia. 
  • Procesamiento analítico en línea (OLAP): Puede optimizar un almacén de datos para realizar consultas complejas más rápidas con un volumen de transacciones relativamente menor. Esto es básicamente lo que un analista utiliza para generar informes de BI.
  • Los análisis predictivos: Un sistema OLAP puede optimizarse para prever eventos futuros y generar escenarios hipotéticos para su empresa, a menudo con la ayuda de algoritmos de aprendizaje automático.

Debido a que los almacenes de datos son esquemas escritos, es importante saber qué tipo de consultas desea realizar antes de añadir esquema a un almacén de datos. Para gestionar la complejidad de las fuentes de datos dispares, un almacén de datos puede segmentarse en data marts para dedicar recursos de hardware y software a funciones específicas de la empresa, como el CRM.

Almacén de datos frente a lago de datos frente a concentrador de datos

Si bien estos tres conceptos pueden sonar intercambiables, es importante entender sus diferencias:

  • Almacén de datos o data warehouse: es un repositorio único en el que se integran y almacenan los datos estructurados obtenidos de múltiples fuentes de datos no estructurados de toda la organización.
  • Lago de datos o data lake: es un repositorio único sin refinar de todas las fuentes de datos estructurados y no estructurados en bruto de una organización (incluidos los almacenes de datos). Los datos deben seguir procesándose para extraer información de BI. 
  • Hub de datos o data hub: una interfaz única que consolida todos los datos —tanto estructurados como no estructurados— en una capa de datos central que es accesible. Se diferencia de un almacén de datos en que también puede manejar datos operativos y se diferencia de un lago de datos porque tiene la capacidad de servir datos en múltiples formatos. 

Los hubs de datos proporcionan el gobierno de datos necesario para optimizar la compartición de datos entre un grupo diverso de puntos de conexión. De este modo, los hubs de datos consolidan los lagos de datos y los almacenes de datos en una capa de acceso única. El procesamiento de los datos queda oculto detrás del hub de datos, lo que permite que su organización disponga de un lugar centralizado en el que extraer la información de la inteligencia empresarial.

¿Por qué elegir Pure Storage para sus necesidades de almacén de datos?

Si necesita añadir una nueva canalización OLAP u OLTP a su infraestructura de almacén de datos existente, puede que sea el momento de plantearse invertir en una Experiencia de Datos más Moderna™ con las soluciones de almacenamiento totalmente flash de Pure Storage. 

Como primer concentrador de datos del sector, FlashBlade ®  de Pure Storage® no solo puede gestionar las cargas de trabajo de análisis e informes de un almacén de datos, sino que también puede proporcionar las cualidades esenciales de un concentrador de datos:

  • Una compartición optimizada de los datos entre todos sus puntos finales de datos.
  • Un almacenamiento unificado de archivos y objetos.
  • La capacidad de manejar los datos operativos en tiempo real.
  • Desarrollado de manera nativa para escalar horizontalmente
  • Diseñado para proporcionar un rendimiento multidimensional para cualquier tipo de datos
  • En paralelo masivo del software al hardware
11/2024
Enhance Data Lakehouse Infrastructure
Pure Storage® has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
Resumen de la solución
3 páginas
CONTACTAR CON NOSOTROS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudarle.

Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes. 

Llámenos al: +34 51 889 8963

Medios de comunicaciónpr@purestorage.com

 

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.