Datalake versus datahub
Een datalake en een datahub zijn in hun essentie totaal verschillend. Datalakes zijn ontworpen om data zo efficiënt mogelijk op te slaan en zijn gebouwd met oude technologieën, zoals op DAS gebaseerde opslag. Het probleem van een datalake is dat het datasilo’s creëert die de mogelijkheid belemmeren om de sets data te combineren tot een samenhangend geheel.
Een datahub is een moderne, data-centrische architectuur voor opslag. De datahub ondersteunt analytics en AI door bedrijven in staat te stellen data te consolideren en te delen in de data-first wereld waarin we tegenwoordig leven. In tegenstelling tot datalakes en traditionele DAS-architecturen, die primair ontwikkeld zijn om data op te slaan, is een datahub ontwikkeld om data in realtime en op een multidimensionale manier te delen.
Waarom datalakes aan het uitsterven zijn
Datalakes sterven uit omdat ze zijn gebouwd op basis van de verouderde vooronderstelling dat alle ongestructureerde data dient te worden opgeslagen. Een deel ervan wordt opgeslagen in datawarehouses, een deel gaat verloren in datalakes. De eenheid van de data is echter verbroken en de snelheid van de gegevens wordt geremd. Waarom is het zo moeilijk voor oude opslagsystemen om data op één platform te verenigen? Het probleem is dat elke applicatie andere eisen stelt aan de data - vandaar de de wildgroei aan datasilo's. Het is tijd voor een nieuwe benadering van opslag.
Data is de brandstof van de moderne organisatie. Toch worden de meeste data opgeslagen in silo's, buiten het bereik van analytics en AI-applicaties. Moderne intelligentie vereist een architectuur die is ontworpen om data niet alleen op te slaan, maar deze ook te delen en te leveren.