Como os data warehouses funcionam
A complexidade da logística necessária para coletar de dados de diferentes partes da empresa para extrair informações úteis pode aumentar conforme sua empresa cresce. Os data warehouses podem oferecer à sua empresa uma forma confiável de consolidar essas informações em um só banco de dados, além de um modelo de dados que permita aos analistas executar as consultas de que precisam.
Veja como funciona:
- Extrair (Extract): coletar dados brutos de diferentes fontes em uma empresa (por exemplo, ERP, CRM, vendas, marketing) para bancos de dados intermediários.
- Transformar (Transform): dados da camada intermediária são transferidos para uma camada de integração, em que os dados são combinados e transformados em um Armazenamento de Dados Operacionais (ODS, Operational Data Store).
- Carregar (Load): os dados são migrados da camada de integração para um data warehouse definindo o esquema que seus analistas querem usar para suas consultas SQL antes de gravá-las em um banco de dados relacional (esquema na gravação).
O banco de dados com que você interage em um data warehouse é relacional, o que significa que os dados são estruturados: são armazenados em tabelas com colunas e linhas. Essas tabelas são organizadas por um esquema que foi definido durante a gravação.
Quando a etapa de transformação é tratada por um ODS externo para o data warehouse, ela é denominada processo de extração, transformação e carga (ETL, Extract, Transform, Load). Quando o data warehouse lida com as transformações internamente, o processo é de extração, carga e transformação (ELT, Extract, Load, Transform). Seja com ETL, ou com ELT, os data warehouses exigem dados estruturados e esquema na gravação para trabalhar com bancos de dados relacionais.
Para que são usados data warehouses?
Aplicações comuns de data warehouses incluem:
- Processamento de transações online (OLTP, Online Transaction Processing): um data warehouse pode ser otimizado para integridade dos dados e consultas rápidas para lidar com um volume alto de transações breves de dados. Um exemplo são transações que ocorrem em uma plataforma de negociação em alta frequência.
- Processamento Analítico Online (OLAP): você pode otimizar um data warehouse para realizar consultas complexas mais rápidas para um volume relativamente menor de transações. Basicamente, é isso que um analista usa para gerar relatórios de BI.
- Análise preditiva: um sistema de OLAP pode ser otimizado para prever eventos e gerar cenários hipotéticos para sua empresa, normalmente com a ajuda de algoritmos de aprendizado de máquina.
Como os data warehouses são de esquema na gravação, é importante saber quais tipos de consultas você quer realizar antes de adicionar o esquema ao data warehouse. Para gerenciar a complexidade de diferentes fontes de dados, um data warehouse pode ser segmentado em data marts para dedicar recursos de hardware e software a funções de negócios específicas, como CRM.
Data warehouse x Data lake x Data hub
Embora estes três conceitos possam parecer intercambiáveis, é importante entender as diferenças:
- Data warehouse: um único repositório para integrar e armazenar dados estruturados extraídos de várias fontes de dados não estruturados em toda a sua empresa;
- Data lake: um único repositório não refinado de todas as fontes de dados brutos estruturados e não estruturados de uma empresa (incluindo data warehouses). Os dados ainda devem ser processados para extrair insights de BI;
- Data hub: uma única interface que consolida todos os dados (estruturados e não estruturados) em uma camada de dados central acessível. É diferente de um data warehouse porque consegue lidar com dados operacionais, e é diferente de um data lake porque consegue apresentar dados em vários formatos.
Os data hubs oferecem a governança de dados necessária para simplificar o compartilhamento de dados entre um conjunto diversificado de pontos de extremidade. Dessa forma, os data hubs consolidam data lakes e data warehouses em uma só camada de acesso. O processamento de dados é abstraído por um data hub, dando à sua empresa um local centralizado para a extração de insights de BI.
Por que escolher a Pure Storage para suas necessidades de data warehouse?
Se precisar adicionar um novo fluxo de OLAP e OLTP à sua infraestrutura atual de data warehouse, talvez seja a hora de considerar o investimento em uma Modern Data Experience™ com as soluções de armazenamento totalmente flash da Pure Storage.
Como o primeiro data hub do setor, o FlashBlade® da Pure Storage® não apenas lida com cargas de trabalho de análise e relatórios de um data warehouse, mas também oferece as qualidades essenciais de um data hub:
- compartilhamento de dados integrado em todos os seus pontos de extremidade de dados;
- armazenamento unificado de arquivos e objetos;
- capacidade de lidar com dados operacionais em tempo real;
- arquitetado de forma nativa para expandir horizontalmente;
- desenvolvido para oferecer desempenho multidimensional para qualquer tipo de dado;
- extremamente paralelo do software ao hardware.