Para extraer y procesar datos de múltiples fuentes, un almacén de datos operativo (ODS) actúa como una ubicación de almacenamiento temporal para el procesamiento de datos antes de enviarlos a su destino de almacenamiento final. Los datos pueden almacenarse como estructurados o no estructurados, pero deben almacenarse de una manera que pueda extraerse y transformarse en un formato para su ubicación de almacén de datos final. La arquitectura de ODS se suele crear para los pipelines de datos ETL (extracción, transformación y carga) y ELT (extracción, carga y transformación).
¿Qué es un ODS?
Un almacén de datos operativo es un repositorio centralizado para los datos en tiempo real o casi en tiempo real que se utilizan para los informes y análisis operativos. En los pipelines de datos grandes, un ODS actúa como un área de preparación para el formato, la deduplicación y el procesamiento final de los datos antes de enviar los datos al almacén de datos. Por ejemplo, una gran organización inmobiliaria puede extraer datos de varios sitios web diferentes para realizar análisis para sus clientes. Durante el proceso de extracción, el pipeline de datos almacena la información extraída en un ODS, para que los scripts automatizados puedan formatear, organizar y desduplicar los datos. Una vez que ETL procesa los datos, estos se envían al almacén de datos, donde las aplicaciones inmobiliarias pueden consultarlos.
Un ODS se utiliza para los datos estructurados y no estructurados, pero es especialmente útil para los pipelines de datos que trabajan con bases de datos relacionales. El ODS puede almacenar datos no estructurados de archivos o páginas web desguazadas y el ETL los utiliza para procesar los datos recopilados antes del paso de transformación. Sin el ODS, los datos se perderían si fallara el formato de los registros. Cualquier registro que falle en la transformación puede permanecer en el ODS para su procesamiento adicional o posiblemente para su posterior revisión humana.
Propósito de un ODS
Para las grandes empresas y las aplicaciones de aprendizaje automático, los datos suelen extraerse de múltiples ubicaciones durante el procesamiento de ETL. El pipeline de datos puede extraer archivos de una fuente de red, datos de puntos de conexión API y datos extraídos de una aplicación web. Los scripts utilizados para recoger los datos los desechan en un ODS donde pueden procesarse. El propósito de un ODS es permitir que los scripts de extracción de datos tengan un lugar para almacenar la información recopilada antes del procesamiento.
Un ODS es una parte importante de los paneles y las aplicaciones en tiempo real, sobre todo cuando los datos recopilados en un ODS se utilizan en varias ubicaciones. Por ejemplo, el ODS contiene datos recopilados en los que un proceso ETL los formatea antes de enviarlos a un almacén de datos en el que los análisis pueden usarlos para proyecciones financieras. Piense en un ODS como un servicio de recogida de datos provisional antes de que los datos estén disponibles para las aplicaciones de usuario final.
Ventajas de ODS
Las empresas necesitan un ODS para un mejor procesamiento de los datos y unos pipelines ETL más eficientes. Como los scripts ETL tienen un lugar para almacenar datos, las aplicaciones en tiempo real también tienen una ubicación para extraer datos para un procesamiento rápido, cálculos de inteligencia artificial e ingestión de aprendizaje automático. Sin un ODS, sus pipelines de datos ETL pueden dejar caer datos que no se ajustan a las limitaciones de la base de datos o que no pueden procesarse antes de almacenarse en el almacén de datos.
Estos son algunos de los beneficios adicionales:
- Práctico conjunto de diversas fuentes de datos con un formato y una organización dispares
- Una copia instantánea completa de todos los registros recopilados de diversas fuentes que se pueden usar para identificar problemas o reprocesar datos si es necesario.
- Capacidades de almacenamiento de datos no estructurados para analíticas y aprendizaje automático
- Los sistemas ODS en la nube pueden configurarse para que estén disponibles para los usuarios, las aplicaciones, los administradores o los proveedores externos, independientemente de su ubicación.
- Ubicación centralizada para recoger datos para todas las aplicaciones internas, lo que aumenta la precisión e integridad de los datos en todos sus informes críticos.
Implementar un ODS
Debido a que un ODS forma parte de su canalización de datos y procesamiento ETL, debe incluirse en sus diseños y arquitectura de datos. El tipo de datos recopilados es un factor determinante importante para un ODS. Cualquier dato no estructurado necesita una base de datos NoSQL. Una base de datos relacional rechazará los datos que no cumplan las limitaciones de la tabla.
Después de elegir la plataforma de base de datos, tendrá que decidir si desea alojar el ODS localmente o en la nube. Una base de datos local puede ser más adecuada para las aplicaciones internas no disponibles para el público, pero sus scripts ETL deben poder llegar a la base de datos y a cualquier almacén de datos interno. Las bases de datos en la nube son beneficiosas para las aplicaciones en la nube pública, donde pueden configurarse para conectarse a las bases de datos de aplicaciones en la nube de producción.
Las aplicaciones en tiempo real requieren velocidad y potencia de computación, así que asegúrese de que su arquitectura de base de datos tiene el ancho de banda, la potencia de computación, la memoria y la capacidad de almacenamiento para manejar grandes cargas de datos. Puede que tenga sentido realizar una prueba en la recogida de datos para identificar la cantidad de capacidad de almacenamiento necesaria, pero no olvide permitir un almacenamiento adicional para la escalabilidad. Con el tiempo, las copias instantáneas pueden pasarse a otra base de datos de copia de seguridad o eliminarse después de que los datos envejezcan y ya no sean relevantes.
ODS frente al Almacén de Datos
Un almacén de datos es el destino final para los datos desinfectados y formateados. El ODS de sus procedimientos ETL es donde se almacenan los datos brutos hasta que se estructuran, deduplican y verifican. La manera en que organiza los datos y dónde se almacenan depende de las reglas individuales de su empresa. Las bases de datos relacionales de su almacén de datos exigen unos datos estructurados con unas reglas estrictas, con el modo en que debe formatearlos antes de almacenarlos.
Las tablas de ODS se actualizan constantemente con nuevos datos y pueden usarse para el procesamiento de datos en tiempo real y las aplicaciones de usuario. Los datos estructurados y no estructurados pueden almacenarse en tablas de ODS, pero muchos sistemas utilizan datos no estructurados para que la recogida de datos tenga menos limitaciones. Las limitaciones y el filtrado pueden aplicarse durante el proceso de importación a su almacén de datos.
Las consultas deben ejecutarse desde las tablas del almacén de datos, donde los datos son mucho más permanentes. Es inusual eliminar datos de un almacén de datos. Puede archivarlos, pero eliminar completamente los datos es inusual. Los datos de ODS son mucho más volátiles. Los datos duplicados pueden eliminarse y cualquier dato obsoleto o dañado puede eliminarse.
Conclusión
Si tiene previsto recoger datos de varias fuentes para su almacén de datos, una arquitectura provisional de ODS es beneficiosa para los pipelines de datos que admiten múltiples aplicaciones con diferentes reglas empresariales. Puede convertir sus datos en formatos estructurados y no estructurados para soportar el aprendizaje automático, las consultas, los informes, los paneles de análisis y cualquier otra aplicación front-end que utilice el almacén de datos.
Para permitir una base de datos en crecimiento, las soluciones de nube de Pure Storage ofrecen soporte para AWS , Azure y cualquier otro proveedor para conectar su ODS. Sus procedimientos ETL tienen un acceso rápido a servicios de bases de datos escalables para soportar el procesamiento en tiempo real y las consultas rápidas.