資料倉儲運作原理
隨著企業的成長,從業務的不同方面收集資料,以提取有用的資訊,這種後勤工作可能變得越來越複雜。資料倉儲能為您的業務提供可靠的方式,將資訊整合至單一資料庫和資料模型中,以利 分析師進行查詢。
運作原理:
- 擷取:從組織的不同來源(如 ERP、CRM、銷售、行銷部門)收集原始資料到暫存資料庫中。
- 轉換:將暫存層的資料傳輸至整合層,在此進行資料整合,並將其轉換為操作型資料儲存(ODS)。
- 載入:先確定分析人員想使用的 SQL 查詢方式,以將資料從整合層搬移入資料倉儲,再將資料寫入關聯式資料庫(schema on write)。
您在資料倉儲中互動的資料庫是關聯式的,代表資料是結構化的,儲存在行與列組成的表格中。這些表格是由 寫入時 定義的綱要所組織而成。
若由資料倉儲外部的 ODS 處理轉換步驟,則稱為 ETL(擷取、轉換,載入)。若資料倉儲在內部處理轉換作業,則稱為 ELT(擷取、載入,轉換)。無論是使用 ETL 還是 ELT,資料倉儲都需要結構化資料並依循 schema on write,才能與關聯式資料庫一起使用。
資料倉儲的用途為何?
常見的資料倉儲運用方式有:
- 線上交易處理 (OLTP): 可為資料倉儲的優化資料完整性及快速查詢,以處理大量的短資料交易。比方說在高頻交易平台上進行的交易。
- 線上分析處理 (OLAP): 可針對相對較少的交易量優化資料倉儲,以更快速進行複雜的查詢。基本上,這就是分析師用來產生 BI 報告的方式。
- 預測性分析:利用助機器學習演算法來優化 OLAP 系統,以預測未來事件,並為您的業務模擬「假設」的情境。
由於資料倉儲屬於 schema on write 模式,因此新增綱要至資料倉儲之前,務必先了解要執行哪種類型的查詢。為了管理不同資料來源帶來的複雜度,可以將資料倉儲區分成資料超市,以將專屬的軟硬體資源用於 CRM 之類的特定業務功能。
資料倉儲 vs. 資料湖泊 vs. 資料中樞
雖然下列三者的概念看似可以互換,但必須了解它們之間的差異:
- 資料倉儲:一個用於整合並儲存結構化資料的儲存庫,這些資料是從組織中多個非結構化資料來源提取而來的。
- 資料湖泊:一個組織(包括資料倉儲)中,所有結構化和非結構化原始資料來源的未經精簡化的儲存庫。仍需處理資料以提取 BI 深度資訊。
- 資料中樞:一個可整合所有資料的介面,包含結構化及非結構化資料,皆能整合至中央存取資料層。資料中樞與資料倉儲的不同之處在於它還能處理作業資料,而且也和資料湖泊不同,因為資料中樞可提供多種格式的資料。
資料中樞可提供必要的資料治理功能,以簡化在各種端點集合之間的資料共享。如此一來,資料中樞便能將資料湖泊和資料倉儲整合至一個存取層中。資料中樞抽出資料處理這一塊,讓您的組織可以集中提取 BI 深度資訊。
為您的資料倉儲選擇 Pure Storage,能帶來什麼優勢?
如果您需要在現有的資料倉儲基礎架構中新增 OLAP 或 OLTP 管道,可以考慮投資 Pure Storage 的全快閃儲存解決方案,以取得更佳的 Modern Data Experience™。
Pure Storage® FlashBlade® 作為領先業界的資料中樞,不僅能處理資料倉儲的分析及報告工作負載,還可以提供資料中樞的必備功能:
- 能跨所有資料端點,順暢無阻地分享資料
- 提供統一的檔案與物件式資料儲存
- 能即時處理作業資料
- 易於橫向擴展的原生基礎架構
- 使任何類型的資料都能提供多元效能
- 從軟體到硬體接可進行大規模平行處理