Hoe data-warehouses werken
De logistiek van het verzamelen van data uit verschillende delen van uw bedrijf om nuttige informatie te extraheren kan in complexiteit toenemen naarmate uw bedrijf groeit. Data-warehouses kunnen uw bedrijf een betrouwbare manier geven om die informatie te consolideren in een enkele database en een datamodel, zodat analisten hun query's kunnen uitvoeren.
Dit is hoe het werkt:
- Extraheren: Verzamel ruwe data uit de verschillende bronnen in uw organisatie (bijv. ERP, CRM, verkoop, marketing) in staging-databases.
- Transformeren: Data van de staginglaag wordt overgebracht naar een integratielaag, waar data wordt gecombineerd en getransformeerd naar een Operational Data Store (ODS).
- Laden: De data wordt vanuit de integratielaag naar het data-warehouse verplaatst door het schema te definiëren dat uw analisten willen gebruiken voor hun SQL-query's voordat ze in een relationele database (schema op schrijven) worden geschreven.
De database waarmee u in een data-warehouse communiceert is relationeel, dat wil zeggen dat de data is gestructureerd in tabellen die bestaan uit kolommen en rijen. Deze tabellen zijn gerangschikt volgens schema's die tijdens het schrijven zijn gedefinieerd.
Wanneer de transformatiestap wordt afgehandeld door een ODS die buiten het data-warehouse ligt, heet dit ETL (Extraheren, Transformeren, Laden). Wanneer het data-warehouse de transformaties intern afhandelt, heet het ELT (Extraheren, Laden, Transformeren). Of u nu gebruikmaakt van ETL of ELT, datawarehouses hebben gestructureerde data nodig, en schema's op schrijven, om te kunnen werken met relationele databases.
Waar worden data-warehouses voor gebruikt?
Veelvoorkomende applicaties van data-warehouses zijn onder andere:
- Online Transactieverwerking (OLTP) Een data-warehouse kan worden geoptimaliseerd voor data-integriteit en snelle query's om een groot volume aan korte datatransacties af te handelen. Een voorbeeld hiervan zijn transacties die plaatsvinden op een high-frequency trading platform.
- Online Analytische Processing (OLAP): U kunt een data-warehouse optimaliseren voor snellere complexe query's voor een relatief lager transactievolume. Dit is in principe wat een analist gebruikt om BI-rapporten te genereren.
- Voorspellende analytics: Een OLAP-systeem kan worden geoptimaliseerd om toekomstige gebeurtenissen te voorspellen en "wat als”-scenario's voor uw bedrijf te genereren, vaak met behulp van machine learning-algoritmen.
Omdat data-warehouses schema op schrijven zijn, is het belangrijk om te weten wat voor soort query's u wilt uitvoeren voordat u schema's toevoegt aan een data-warehouse. Om de complexiteit van verschillende databronnen te beheren, kan een data-warehouse worden gesegmenteerd in data marts om hardware- en softwarebronnen te wijden aan specifieke bedrijfsfuncties, zoals CRM.
Data-warehouse vs. Datalake vs. Datahub
Hoewel deze drie concepten onderling uitwisselbaar klinken, is het belangrijk om hun verschillen te begrijpen:
- Data-warehouse: Eén enkele opslagplaats voor het integreren en opslaan van gestructureerde data uit meerdere ongestructureerde databronnen in uw organisatie.
- Datalake: Eén enkele ongeraffineerde opslagplaats van alle gestructureerde en ongestructureerde ruwe databronnen binnen een organisatie (inclusief data-warehouses). De data moet nog steeds worden verwerkt om BI-inzichten te extraheren.
- Datahub: Eén enkele interface die alle data consolideert - zowel gestructureerd als ongestructureerd - in een centrale toegankelijke datalaag. Het verschilt van een data-warehouse in die zin dat het ook operationele data kan verwerken en het verschilt van een datalake doordat het de mogelijkheid heeft om data in meerdere formats te bedienen.
Datahubs bieden de data governance die nodig is om datasharing tussen een gevarieerde verzameling van endpoints te stroomlijnen. Op deze manier consolideren datahubs de datalakes en data-warehouses in één toegangslaag. De dataverwerking wordt geabstraheerd achter de datahub, waardoor uw organisatie een gecentraliseerde plaats krijgt om BI-inzichten te extraheren.
Waarom voor Pure Storage kiezen voor uw datawarehouse-behoeften?
Als u een nieuwe OLAP of OLTP-pijplijn moet toevoegen aan uw bestaande datawarehouse-infrastructuur, kan het tijd zijn om te overwegen te investeren in een Moderne Data Experience™ met Pure Storage's all-flash storage-oplossingen.
Als eerste datahub in de industrie kan Pure Storage® FlashBlade® niet alleen de analytics en rapporterende workloads van een data-warehouse aan, maar ook de essentiële kwaliteiten van een datahub leveren:
- Naadloze data-uitwisseling over al uw data-endpoints
- Verenigde file en object storage
- De mogelijkheid om operationele data realtime te verwerken
- Oorspronkelijk opgezet voor een scale-out
- Ontworpen om multidimensionale prestaties te leveren voor elke soort data
- Massaal parallel van software tot hardware