Comment fonctionne les data warehouses ?
La logistique liée à la collecte de données de différentes parties de votre entreprise afin d’en extraire des informations utiles peut devenir plus complexe au fur et à mesure que votre entreprise évolue. Les data warehouses peuvent aider votre entreprise à consolider ces informations dans une base de données et un modèle de données uniques afin de permettre aux analystes d’exécuter leurs recherches.
Voici comment tout cela fonctionne :
- Extraire : Collectez les données brutes de sources disparates au sein de votre entreprise (p. ex. ERP, CRM, vente, marketing) dans une base de données intermédiaire.
- Transformer : Les données contenues dans la couche intermédiaire sont transférées dans une couche d’intégration, où les données sont combinées et transformées dans un Operational Data Store (ODS).
- Charger : Les données sont transférées de la couche d’intégration au data warehouse en définissant le schéma que vos analystes souhaitent utiliser pour leurs requêtes SQL avant de les écrire dans une base de données relationnelle (schéma en écriture).
La base de données intégrée à un data warehouse est relationnelle. Les données y sont structurées et stockées dans des tableaux en lignes et en colonnes. Ces tableaux sont organisés selon le schéma défini lors de l’écriture.
Lorsque la phase de transformation est gérée par un ODS externe au data warehouse, on parle d’ETL (Extract, Transform, Load). Lorsque le data warehouse gère cette phase en interne, on parle d’ELT (Extract, Load, Transform). Que vous ayez recours à un processus ETL ou ELT, les data warehouses nécessitent des données structurées et un schéma en écriture afin de pouvoir fonctionner avec des bases de données relationnelles.
Pourquoi les data warehouses sont-ils utilisés ?
Voici quelques-unes des applications courantes des data warehouses :
- Traitement transactionnel en ligne (OLTP) : un data warehouse peut être optimisé pour l’intégrité des données et des requêtes rapides afin de prendre en charge un grand volume de petites transactions de données. Un exemple serait les transactions effectuées sur une plateforme de Trading Haute Fréquence (THF).
- Traitement analytique en ligne (OLAP) : vous pouvez optimiser un data warehouse afin d’exécuter des requêtes complexes plus vite pour un volume de transactions relativement moins élevé. C’est essentiellement ce qu’un analyste utilise pour générer des rapports BI.
- L’analytique prédictive : un système OLAP peut être optimisé afin de prédire de futurs événements et de générer des scénarios conditionnels, souvent à l’aide d’algorithme d’apprentissage machine.
Les data warehouses étant des schémas en écriture, il est important de déterminer le type de requêtes que vous souhaitez effectuer avant d’ajouter un schéma à un data warehouse. Pour gérer la complexité liée à l’extraction à partir de sources de données disparates, un data warehouse peut être segmenté en data marts afin de dédier des ressources matérielles ou logicielles à certaines fonctions de l’entreprise telles que le CRM.
Data warehouse, data lake ou data hub
Bien que ces trois concepts puissent paraître interchangeables, il est important de comprendre leurs différences :
- Data warehouse : un entrepôt unique pour l’intégration et le stockage de données structurées extraites de diverses sources de données non structurées au sein de l’entreprise.
- Lac de données : un entrepôt unique brut contenant toutes les sources de données brutes structurées et non structurées d’une entreprise (y compris les data warehouses). Les données doivent toutefois être traitées afin d’extraire des informations stratégiques de BI.
- Data hub : une interface unique qui consolide toutes les données, structurées comme non structurées, dans une couche de données centrale et accessible. La différence avec un data warehouse, c’est qu’un data hub peut aussi prendre en charge les données opérationnelles et contrairement à un data lake, il est capable de fournir des données dans plusieurs formats.
Les data hubs offre la gouvernance de données nécessaire pour rationaliser le partage de données sur un ensemble hétérogène de terminaux. De cette façon, les data hubs consolident les data lakes et les data warehouses en une seule couche d’accès. Le data hub fait abstraction du traitement de données pour que votre entreprise puisse bénéficier d’un emplacement centralisé afin d’extraire les informations stratégiques de BI.
Pourquoi choisir Pure Storage pour votre data warehouse ?
Si vous avez besoin d’ajouter un nouveau pipeline OLAP ou OLTP à votre infrastructure de data warehouse existante, il est peut-être temps de réfléchir à investir dans une expérience des données plus moderne (Modern Data Experience™) avec les solutions de stockage 100 % flash de Pure Storage.
Le premier data hub du marché, FlashBlade® de Pure Storage® peut non seulement prendre en charge les charges de travail d’analytique et les rapports d’un data warehouse mais possèdent également les principaux atouts d’un data hub :
- Partage de données fluide sur tous vos terminaux de données
- Stockage de fichiers et d’objets unifié
- Prise en charge des données opérationnelles en temps réel
- Architecture native extensible
- Performances multidimensionnelles pour chaque type de données
- Hautement parallèle sur les plans logiciel et matériel