Skip to Content

O que é um ODS?

Para extrair e processar dados de várias fontes, um armazenamento de dados operacional (ODS, Operational Data Store) atua como um local de armazenamento temporário para processamento de dados antes de enviá-los para seu destino final de armazenamento. Os dados podem ser armazenados como estruturados ou não estruturados, mas devem ser armazenados de uma maneira que possa ser extraída e transformada em um formato para sua localização final do data warehouse. A arquitetura ODS geralmente é criada para fluxos de dados ETL (extrair, transformar e carregar) e ELT (extrair, carregar e transformar).

O que é um ODS?

Um datastore operacional é um repositório centralizado para dados em tempo real ou quase em tempo real usado para análise e relatórios operacionais. Em grandes fluxos de dados, um ODS atua como uma área de preparação para formatação, desduplicação e processamento final de dados antes que os dados sejam enviados para o data warehouse. Por exemplo, uma grande organização imobiliária pode extrair dados de vários sites diferentes para realizar análises para seus clientes. Durante o processo de extração, o fluxo de dados armazena as informações extraídas em um ODS para que scripts automatizados possam formatar, organizar e desduplicar os dados. Depois que o ETL processa os dados, eles são enviados para o data warehouse, onde os aplicativos imobiliários podem consultá-los.

Um ODS é usado para dados estruturados e não estruturados, mas é especialmente útil para fluxos de dados que trabalham com bancos de dados relacionais. O ODS pode armazenar dados não estruturados de arquivos ou páginas da Web raspadas, e o ETL os usa para processar dados coletados antes da etapa de transformação. Sem o ODS, os dados seriam perdidos se houvesse falha na formatação de qualquer registro. Quaisquer registros que falharem na transformação podem permanecer no ODS para processamento adicional ou possivelmente análise humana adicional.

Finalidade de um ODS

Para grandes empresas e aplicativos de aprendizado de máquina, os dados geralmente são extraídos de vários locais durante o processamento de ETL. O fluxo de dados pode extrair arquivos de uma fonte de rede, dados de endpoints de API e dados extraídos de um aplicativo da Web. Scripts usados para coletar os dados os despejam em um ODS onde podem ser processados. O objetivo de um ODS é permitir que scripts de extração de dados tenham um lugar para armazenar as informações coletadas antes do processamento.

Um ODS é uma parte importante dos painéis e aplicativos em tempo real, especialmente quando os dados coletados em um ODS são usados em vários locais. Por exemplo, o ODS contém dados coletados onde um processo ETL o formata antes de enviá-lo para um data warehouse onde a análise pode usá-lo para projeções financeiras. Pense em um ODS como um serviço de coleta de dados provisório antes que os dados estejam disponíveis para aplicativos de usuário final.

Benefícios do ODS

As empresas precisam de um ODS para um melhor processamento de dados e fluxos de ETL mais eficientes. Como os scripts ETL têm um lugar para armazenar dados, os aplicativos em tempo real também têm um local para extrair dados para processamento rápido, cálculos de inteligência artificial e ingestão de aprendizado de máquina. Sem um ODS, seus fluxos de dados de ETL podem descartar dados que não se encaixam nas restrições do banco de dados ou não podem ser processados antes de serem armazenados no data warehouse.

Alguns benefícios adicionais incluem:

  • Coleta conveniente de várias fontes de dados com formatação e organização distintas
  • Um snapshot completo de todos os registros coletados de várias fontes que podem ser usados para identificar problemas ou reprocessar dados, se necessário
  • Recursos de armazenamento de dados não estruturados para análise e aprendizado de máquina
  • Os sistemas ODS na nuvem podem ser configurados para estarem disponíveis para usuários, aplicativos, administradores ou fornecedores terceirizados, independentemente de sua localização
  • Localização centralizada para coletar dados para todos os aplicativos internos, o que aumenta a precisão e a integridade dos dados em todos os seus relatórios críticos

Implementação de um ODS

Como um ODS faz parte do fluxo de dados e do processamento ETL, ele deve ser incluído em seus projetos e arquitetura de dados. O tipo de dados coletados é um grande fator determinante para um ODS. Qualquer dado não estruturado precisa de um banco de dados NoSQL. Um banco de dados relacional rejeitará dados que não estão em conformidade com as restrições da tabela.

Depois de escolher a plataforma de banco de dados, você precisará decidir se deseja hospedar o ODS no local ou na nuvem. Um banco de dados local pode ser mais adequado para aplicativos internos indisponíveis ao público, mas seus scripts ETL devem ser capazes de acessar o banco de dados e qualquer data warehouse interno. Os bancos de dados de nuvem são benéficos para aplicativos de nuvem pública, onde podem ser configurados para se conectar a bancos de dados de aplicativos de nuvem de produção.

Os aplicativos em tempo real exigem velocidade e capacidade de computação. Portanto, garanta que a arquitetura do banco de dados tenha largura de banda, capacidade de computação, memória e capacidade de armazenamento para lidar com grandes cargas de dados. Pode fazer sentido fazer uma avaliação da coleta de dados para identificar a quantidade de capacidade de armazenamento necessária, mas não se esqueça de permitir armazenamento adicional para escalabilidade. Os snapshots podem acabar sendo movidos para outro banco de dados de backup ou removidos após o tempo dos dados e não são mais relevantes.

ODS x Data Warehouse

Um data warehouse é o destino final para dados sanitizados e formatados. O ODS em seus procedimentos de ETL é onde os dados brutos são armazenados até que sejam estruturados, desduplicados e verificados. A forma como você organiza os dados e onde eles são armazenados depende das regras individuais da sua empresa. Bancos de dados relacionais em seu data warehouse exigem dados estruturados com regras rígidas com a forma como você deve formatá-los antes de armazená-los.

As tabelas ODS são consistentemente atualizadas com novos dados e podem ser usadas para processamento de dados em tempo real e aplicativos de usuário. Dados estruturados e não estruturados podem ser armazenados em tabelas ODS, mas muitos sistemas usam dados não estruturados para que a coleta de dados tenha menos restrições. Restrições e filtros podem ser aplicados durante o processo de importação no seu data warehouse.

As consultas devem ser executadas a partir das tabelas do data warehouse, onde os dados são muito mais permanentes. É incomum excluir dados de um data warehouse. Você pode arquivá-lo, mas remover completamente os dados é incomum. Os dados ODS são muito mais voláteis. Dados duplicados podem ser removidos e quaisquer dados obsoletos ou corrompidos podem ser excluídos. 

Conclusão

Se você planeja coletar dados de várias fontes para seu data warehouse, uma arquitetura provisória ODS é benéfica para fluxos de dados que suportam vários aplicativos com diferentes regras de negócios. Você pode transformar seus dados em formatos estruturados e não estruturados para dar suporte a aprendizado de máquina, consultas, relatórios, painéis de análise e qualquer outro aplicativo de front-end que use o data warehouse.

Para permitir um banco de dados crescente, as soluções de nuvem da Pure Storage oferecem suporte para AWS, Azure e qualquer outro provedor para conectar seu ODS. Seus procedimentos de ETL têm acesso rápido a serviços de banco de dados escaláveis para dar suporte a processamento em tempo real e consultas rápidas.

08/2024
Telecom Solutions from Pure Storage
The largest telcos rely on Pure Storage® for mission-critical data services and minimal energy footprint, with innovative technology across all clouds.
Resumo da solução
2 páginas
ENTRE EM CONTATO
Dúvidas ou comentários?

Tem dúvidas ou comentários sobre produtos ou certificações da Pure?  Estamos aqui para ajudar.

Agende uma demonstração

Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos. 

Telefone: 55-11-2844-8366

Imprensa: pr@purestorage.com

 

Sede da Pure Storage

Av. Juscelino Kubitschek, 2041

Torre B, 5º andar - Vila Olímpia

São Paulo, SP

04543-011 Brasil

info@purestorage.com

FECHAR
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.