Cómo funcionan los almacenes de datos
La logística de la recogida de datos de diferentes partes de su empresa para extraer información útil puede escalarse en complejidad a medida que su empresa crece. Los almacenes de datos pueden proporcionar a su empresa una manera fiable de consolidar esa información en una única base de datos y modelo de datos, para permitir que los analistas ejecuten sus consultas.
Así es cómo funciona:
- Extraer: Recopile datos brutos de las distintas fuentes de su organización (por ejemplo, ERP, CRM, ventas, marketing) en bases de datos de ensayo.
- Transformar: Los datos de la capa de ensayo se transfieren a una capa de integración, donde los datos se combinan y se transforman en un almacén de datos operativo (ODS).
- Cargar: Los datos se mueven de la capa de integración al almacén de datos definiendo el esquema que sus analistas desean usar para sus consultas SQL antes de escribirlas en una base de datos relacional (esquema sobre escritura).
La base de datos con la que interactúa en un almacén de datos es relacional, lo que significa que los datos están estructurados —almacenados en tablas que consisten en columnas y filas—. Estas tablas están organizadas por esquemas que se definieron durante la escritura.
Cuando el paso de transformación es gestionado por un ODS externo al almacén de datos, se llama ETL (extracción, transformación, carga). Cuando el almacén de datos gestiona las transformaciones internamente, se llama ELT (extracción, carga, transformación). Tanto si utiliza ETL como ELT, los almacenes de datos necesitan datos estructurados y esquemas de escritura para trabajar con bases de datos relacionales.
¿Para qué se utilizan los almacenes de datos?
Las aplicaciones comunes de los almacenes de datos incluyen:
- Online Transaction Processing (OLTP) Un almacén de datos puede optimizarse para la integridad de los datos y las consultas rápidas para gestionar un gran volumen de transacciones de datos cortas. Un ejemplo son las transacciones que se realizan en una plataforma de negociación de alta frecuencia.
- Procesamiento analítico en línea (OLAP): Puede optimizar un almacén de datos para realizar consultas complejas más rápidas con un volumen de transacciones relativamente menor. Esto es básicamente lo que un analista utiliza para generar informes de BI.
- Los análisis predictivos: Un sistema OLAP puede optimizarse para prever eventos futuros y generar escenarios hipotéticos para su empresa, a menudo con la ayuda de algoritmos de aprendizaje automático.
Debido a que los almacenes de datos son esquemas escritos, es importante saber qué tipo de consultas desea realizar antes de añadir esquema a un almacén de datos. Para gestionar la complejidad de las fuentes de datos dispares, un almacén de datos puede segmentarse en data marts para dedicar recursos de hardware y software a funciones específicas de la empresa, como el CRM.
Almacén de datos frente a lago de datos frente a concentrador de datos
Si bien estos tres conceptos pueden sonar intercambiables, es importante entender sus diferencias:
- Almacén de datos o data warehouse: es un repositorio único en el que se integran y almacenan los datos estructurados obtenidos de múltiples fuentes de datos no estructurados de toda la organización.
- Lago de datos o data lake: es un repositorio único sin refinar de todas las fuentes de datos estructurados y no estructurados en bruto de una organización (incluidos los almacenes de datos). Los datos deben seguir procesándose para extraer información de BI.
- Hub de datos o data hub: una interfaz única que consolida todos los datos —tanto estructurados como no estructurados— en una capa de datos central que es accesible. Se diferencia de un almacén de datos en que también puede manejar datos operativos y se diferencia de un lago de datos porque tiene la capacidad de servir datos en múltiples formatos.
Los hubs de datos proporcionan el gobierno de datos necesario para optimizar la compartición de datos entre un grupo diverso de puntos de conexión. De este modo, los hubs de datos consolidan los lagos de datos y los almacenes de datos en una capa de acceso única. El procesamiento de los datos queda oculto detrás del hub de datos, lo que permite que su organización disponga de un lugar centralizado en el que extraer la información de la inteligencia empresarial.
¿Por qué elegir Pure Storage para sus necesidades de almacén de datos?
Si necesita añadir una nueva canalización OLAP u OLTP a su infraestructura de almacén de datos existente, puede que sea el momento de plantearse invertir en una Experiencia de Datos más Moderna™ con las soluciones de almacenamiento totalmente flash de Pure Storage.
Como primer concentrador de datos del sector, FlashBlade ® de Pure Storage® no solo puede gestionar las cargas de trabajo de análisis e informes de un almacén de datos, sino que también puede proporcionar las cualidades esenciales de un concentrador de datos:
- Una compartición optimizada de los datos entre todos sus puntos finales de datos.
- Un almacenamiento unificado de archivos y objetos.
- La capacidad de manejar los datos operativos en tiempo real.
- Desarrollado de manera nativa para escalar horizontalmente
- Diseñado para proporcionar un rendimiento multidimensional para cualquier tipo de datos
- En paralelo masivo del software al hardware