Pour extraire et traiter des données à partir de plusieurs sources, un magasin de données opérationnel (ODS) agit comme un emplacement de stockage temporaire pour le traitement des données avant de les envoyer vers sa destination de stockage finale. Les données peuvent être stockées comme structurées ou non structurées, mais elles doivent être stockées de manière à pouvoir être extraites et transformées dans un format pour leur emplacement final de data warehouse. L’architecture ODS est généralement conçue pour les pipelines de données ETL (extraction, transformation et chargement) et ELT (extraction, chargement et transformation).
Qu’est-ce qu’un ODS ?
Un data store opérationnel est un référentiel centralisé pour les données en temps réel ou quasi réel utilisées pour les rapports et les analyses opérationnels. Dans les pipelines de données volumineux, un ODS sert de zone de stockage pour le formatage, la déduplication et le traitement final des données avant l’envoi des données à l’entrepôt de données. Par exemple, une grande organisation immobilière peut extraire des données de plusieurs sites Web différents pour effectuer des analyses pour ses clients. Pendant le processus d’extraction, le pipeline de données stocke les informations extraites dans un ODS afin que les scripts automatisés puissent formater, organiser et dédupliquer les données. Une fois qu’ETL traite les données, elles sont envoyées à l’entrepôt de données où les applications immobilières peuvent les interroger.
Un ODS est utilisé pour les données structurées et non structurées, mais il est particulièrement utile pour les pipelines de données fonctionnant avec des bases de données relationnelles. Le système ODS peut stocker des données non structurées à partir de fichiers ou de pages Web grattées, et l’ETL les utilise pour traiter les données collectées avant l’étape de transformation. Sans l’ODS, les données seraient perdues en cas d’échec du formatage des enregistrements. Tous les dossiers qui échouent à la transformation peuvent rester dans le système ODS pour un traitement supplémentaire ou éventuellement un examen plus approfondi par l’homme.
Objectif d’un ODS
Pour les grandes entreprises et les applications d’apprentissage machine, les données sont souvent extraites de plusieurs sites pendant le traitement ETL. Le pipeline de données peut extraire des fichiers d’une source réseau, des données des points de terminaison API et des données collectées à partir d’une application Web. Les scripts utilisés pour collecter les données les déposent dans un ODS où elles peuvent être traitées. L’objectif d’un ODS est de permettre aux scripts d’extraction de données de disposer d’un emplacement pour stocker les informations collectées avant le traitement.
Un ODS est un élément important des tableaux de bord et des applications en temps réel, en particulier lorsque les données collectées dans un ODS sont utilisées à plusieurs endroits. Par exemple, l’ODS contient des données collectées où un processus ETL les formate avant de les envoyer à un data warehouse où l’analytique peut les utiliser pour des projections financières. Imaginez un ODS comme un service de collecte de données provisoire avant que les données ne soient disponibles pour les applications des utilisateurs finaux.
Avantages des ODS
Les entreprises ont besoin d’un ODS pour un meilleur traitement des données et des pipelines ETL plus efficaces. Comme les scripts ETL disposent d’un emplacement pour stocker les données, les applications en temps réel disposent également d’un emplacement pour extraire les données afin d’accélérer le traitement, les calculs d’intelligence artificielle et l’ingestion de l’apprentissage machine. Sans ODS, vos pipelines de données ETL peuvent supprimer des données qui ne correspondent pas aux contraintes de la base de données ou qui ne peuvent pas être traitées avant d’être stockées dans l’entrepôt de données.
Voici quelques avantages supplémentaires :
- Collecte pratique de différentes sources de données avec un formatage et une organisation disparates
- Un aperçu complet de tous les enregistrements collectés à partir de différentes sources, qui peuvent être utilisés pour identifier les problèmes ou retraiter les données si nécessaire
- Capacités de stockage de données non structurées pour l’analytique et l’apprentissage machine
- Les systèmes ODS cloud peuvent être configurés pour être disponibles pour les utilisateurs, les applications, les administrateurs ou les fournisseurs tiers, quel que soit leur emplacement
- Emplacement centralisé pour collecter des données pour toutes les applications internes, ce qui augmente la précision et l’intégrité des données sur l’ensemble de vos rapports critiques
Mise en œuvre d’un ODS
Comme un ODS fait partie de votre pipeline de données et de votre traitement ETL, il doit être inclus dans vos conceptions et votre architecture de données. Le type de données collectées est un facteur déterminant important pour un ODS. Toutes les données non structurées nécessitent une base de données NoSQL. Une base de données relationnelle rejette les données qui ne sont pas conformes aux contraintes de la table.
Après avoir choisi la plateforme de base de données, vous devrez décider si vous souhaitez héberger l’ODS sur site ou dans le cloud. Une base de données on-premises peut être mieux adaptée aux applications internes non accessibles au public, mais vos scripts ETL doivent être en mesure d’atteindre la base de données et tous les data warehouses internes. Les bases de données cloud sont avantageuses pour les applications de cloud public où elles peuvent être configurées pour se connecter aux bases de données d’applications cloud de production.
Les applications en temps réel nécessitent de la vitesse et de la puissance de calcul. Assurez-vous donc que votre architecture de base de données dispose de la bande passante, de la puissance de calcul, de la mémoire et de la capacité de stockage nécessaires pour gérer de grandes quantités de données. Il peut être judicieux d’effectuer un essai sur la collecte de données pour identifier la quantité de capacité de stockage nécessaire, mais n’oubliez pas d’autoriser un stockage supplémentaire pour l’évolutivité. Les snapshots peuvent finalement être déplacés vers une autre base de données de sauvegarde ou supprimés après l’âge des données et ne sont plus pertinents.
ODS et data warehouse
Un data warehouse est la destination finale des données désinfectées et formatées. Les ODS de vos procédures ETL sont l’endroit où les données brutes sont stockées jusqu’à ce qu’elles soient structurées, dédupliquées et vérifiées. La manière dont vous organisez les données et leur emplacement de stockage dépend de vos règles métier individuelles. Les bases de données relationnelles de votre entrepôt de données nécessitent des données structurées avec des règles strictes sur la manière dont vous devez les formater avant de les stocker.
Les tables ODS sont constamment mises à jour avec de nouvelles données et peuvent être utilisées pour le traitement des données et les applications utilisateur en temps réel. Les données structurées et non structurées peuvent être stockées dans des tables ODS, mais de nombreux systèmes utilisent des données non structurées pour réduire les contraintes liées à la collecte de données. Les contraintes et le filtrage peuvent être appliqués pendant le processus d’importation dans votre data warehouse.
Les requêtes doivent être exécutées à partir des tables de data warehouse où les données sont beaucoup plus permanentes. Il est inhabituel de supprimer des données d’un data warehouse. Vous pouvez les archiver, mais il est inhabituel de supprimer complètement les données. Les données ODS sont beaucoup plus volatiles. Les données en double peuvent être supprimées, et les données obsolètes ou corrompues peuvent être supprimées.
Conclusion
Si vous envisagez de collecter des données à partir de diverses sources pour votre data warehouse, une architecture intermédiaire ODS est avantageuse pour les pipelines de données prenant en charge plusieurs applications avec des règles métier différentes. Vous pouvez transformer vos données en formats structurés et non structurés pour prendre en charge l’apprentissage machine, les requêtes, le reporting, les tableaux de bord analytiques et toute autre application front-end qui utilise l’entrepôt de données.
Pour permettre une base de données en pleine croissance, les solutions cloud Pure Storage prennent en charge AWS , Azure , et tout autre fournisseur pour connecter votre système ODS. Vos procédures ETL offrent un accès rapide à des services de base de données évolutifs pour prendre en charge le traitement en temps réel et les requêtes rapides.