Data lake x data hub
Data lakes e data hubs são muito diferentes em sua essência. O data lake foi desenvolvido para armazenar dados da forma mais eficiente possível, com tecnologias legadas, como o armazenamento de conexão direta (DAS). O desafio de um data lake é que ele cria silos de dados que inibem a capacidade de combinar todos os conjuntos de dados necessários para análise em um só.
Um data hub é uma arquitetura centrada em dados e avançada para armazenamento que aumenta a capacidade de análises e inteligência artificial. Com ele, as empresas consolidam e compartilham dados neste cenário atual de dados em primeiro lugar. Diferentemente dos data lakes e das arquiteturas legadas de DAS desenvolvidos principalmente para armazenar dados, um data hub é desenvolvido para compartilhar e disponibilizar dados em tempo real e de forma multidimensional.
Por que os data lakes estão sendo eliminados
Os data lakes estão sendo eliminados, pois foram desenvolvidos com a premissa obsoleta de que todos dados não estruturados devem ser armazenados. Alguns dados são armazenados em data warehouses e outros estão perdidos em data lakes. A unificação de dados é fracionada e a velocidade dos dados é insuficiente. Por que é tão difícil para os sistemas de armazenamento legados unificar dados em apenas uma plataforma? O problema é que cada aplicativo tem diferentes requisitos para seus dados, sem contar a proliferação de silos de dados. Está na hora de repensar o armazenamento.
Os dados movem as empresas modernas. No entanto, a maioria dos dados é armazenada em silos, fora do alcance dos aplicativos de análise e inteligência artificial. A inteligência avançada requer uma arquitetura desenvolvida não apenas para armazenar dados, mas também para compartilhá-los e disponibilizá-los.