Come funzionano i data warehouse
La logistica della raccolta di dati provenienti da diversi settori aziendali per estrarre informazioni utili può diventare sempre più complessa con la progressiva crescita del business. I data warehouse possono offrire alla tua azienda la possibilità di consolidare in modo affidabile tali informazioni in un unico database e modello di dati per consentire agli analisti di eseguire le loro query.
Ecco come funziona:
- Estrazione: raccolta dei dati raw dai diversi settori dell'organizzazione (ad es. ERP, CRM, vendite, marketing) in database di staging.
- Trasformazione: i dati a livello di staging vengono trasferiti in un livello di integrazione, dove vengono combinati e trasformati in un ODS (Operational Data Store).
- Caricamento: i dati vengono spostati dal livello di integrazione nel data warehouse attraverso la definizione dello schema che gli analisti desiderano utilizzare per le loro query SQL prima di scriverli in un database relazionale (schema in scrittura).
Il database con cui si interagisce in un data warehouse è relazionale; in altre parole, i dati sono strutturati in tabelle costituite da colonne e righe. Queste tabelle sono organizzate in base agli schemi definiti durante la scrittura.
Quando la fase di trasformazione è gestita da un ODS esterno al data warehouse, si parla di ETL (Extract, Transform, Load). Quando è il data warehouse a gestire internamente le trasformazioni, si parla di ELT (Extract, Load, Transform). Che la scelta ricada su ETL o su ELT, i data warehouse richiedono dati strutturati, e uno schema in scrittura, per poter essere utilizzati con i database relazionali.
Quali sono gli ambiti di applicazione dei data warehouse?
Le applicazioni più diffuse di data warehouse includono:
- Online Transaction Processing (OLTP): Un data warehouse può essere ottimizzato per la data integrity e le query veloci per gestire un elevato volume di brevi transazioni di dati. Un esempio è dato dalle transazioni che avvengono su una piattaforma di trading ad alta frequenza.
- Elaborazione analitica online (OLAP): puoi ottimizzare un data warehouse per accelerare l'esecuzione di query complesse per un volume di transazioni relativamente inferiore. È sostanzialmente ciò che un analista utilizza per generare report di business intelligence.
- Predictive analytics: un sistema OLAP può essere ottimizzato per prevedere eventi futuri e generare scenari "what if" per l'azienda, spesso con l'aiuto di algoritmi di machine learning.
Poiché i data warehouse sono schemi in scrittura, è importante sapere che tipo di query si desidera eseguire prima di aggiungere schemi a un data warehouse. Per gestire la complessità di più fonti di dati, un data warehouse può essere segmentato in data mart per dedicare risorse hardware e software a specifiche funzioni aziendali come il CRM.
Data warehouse, data lake e data hub a confronto
Anche se questi tre concetti possono sembrare intercambiabili, è importante comprenderne le differenze:
- Data warehouse: un unico repository per l'integrazione e l'archiviazione di dati strutturati provenienti da più origini di dati non strutturati in tutta l'organizzazione.
- Data lake: un unico repository non elaborato di tutte le origini di dati raw strutturati e non strutturati all'interno di un'organizzazione (compresi i data warehouse). I dati devono essere ancora elaborati per estrarre informazione approfondite di business intelligence.
- Data hub: un'unica interfaccia che consolida tutti i dati, strutturati e non strutturati, in un livello di dati accessibile a livello centrale. Si differenzia da un data warehouse in quanto è in grado di gestire anche dati operativi e si differenzia da un data lake per la capacità di fornire dati in più formati.
I data hub offrono la governance dei dati necessaria per semplificare la condivisione dei dati nell'ambito di una raccolta diversificata di endpoint. In questo modo, i data hub consolidano i data lake e i data warehouse in un unico livello di accesso. L'elaborazione dei dati avviene in modo invisibile dietro il data hub, offrendo all'organizzazione una posizione centralizzata dove estrarre le informazioni approfondite di business intelligence.
Perché scegliere Pure Storage per le tue esigenze di data warehouse?
Se hai la necessità di aggiungere una nuova pipeline OLAP o OLTP alla tua infrastruttura di data warehouse esistente, potrebbe essere il momento di valutare l'opportunità di investire in una Modern Data Experience™ più avanzata con le soluzioni di storage all-flash di Pure Storage.
In qualità di primo data hub del settore, Pure Storage® FlashBlade® può non solo gestire i workload di analytics and reporting di un data warehouse, ma anche fornire le qualità essenziali di un data hub:
- Condivisione dei dati fluida tra tutti gli endpoint di dati
- File storage e object storage unificati
- Possibilità di gestire i dati operativi in tempo reale
- Concepito in modalità nativa per lo scale-out
- Progettato per fornire performance multidimensionali per qualsiasi tipo di dati
- Parallelo dal software all'hardware