Skip to Content
初學者大數據指南

結構化資料 vs. 非結構化資料

過去十年來,我們對於資料的理解和定義已產生了劇變,部分是因為越來越多新工具出現,讓我們得以讀取、儲存、分析非結構化資料。

以往,非結構化資料經常未善加利用,因此想要進一步轉譯解讀並不容易。新技術出現後,不但解讀非結構化資料變得簡單,也能從這些資訊寶藏挖掘出更多珍貴見解。

國際數據資訊 (IDC) 表示,全球在 2024 年前每年所產生、捕捉、複製、消耗的資料總量將會超過 149 ZB,而且多數都會是非結構化資料。企業組織若能具備分析非結構化資料的能力,將會受益無窮。想要迎頭趕上?第一步便是了解結構化資料 vs. 非結構化資料。

我們列出兩種資料的概要差異,下方有更多深度說明:

特點

結構化資料

非結構化資料

資料特性

通常與「量」相關

通常與「質」相關

資料模型

預定義;一經定義並儲存資料後,很難再更動模型

非結構化資料無特定模式;其資料模型極為彈性靈活。

資料格式

有限的資料格式

非結構化資料的資料格式五花八門,種類繁多

資料庫

使用以 SQL 為基礎的關聯式資料庫

無特定模式,使用 NoSQL 資料庫

搜尋

在資料庫或資料集內可輕易搜尋查找

由於非結構化的特性,搜尋特定資料相當困難

分析

資料以「量」為特性,因此容易分析

即使用現有的軟體工具也難以分析

儲存方式

結構化資料使用資料倉儲

非結構化資料使用資料湖泊

Slide

什麼是結構化資料?

結構化資料的資訊內容有精確定義的模式。若要簡單定義,意即所有可以透過表單系統(如 Google 試算表、Microsoft Excel)呈現出來的資料都是結構化資料。

在這個例子當中,資料可以透過行列式表格呈現出來。每一行都代表一種特殊的屬性,而每一列會個別列出與該屬性相關的資料。行與列組成了表格,因而可以輕鬆引用。

不同的表格可以互相連結,意即兩個表格之間同一列的資料可以互相關聯。

假如多個相關表格接續整合起來,便可建立起關聯式資料庫。舉例來說,百貨公司的客戶、銷售、存貨資料可以視作儲存在關聯式資料庫的結構化資料。

  • 每一位客戶都有專屬的 ID 號碼,以及他們的姓名、聯絡電話、信用卡資訊、地址⋯⋯等等。
  • 客戶資料庫可以連結到銷售資料庫,銷售資料包括了購買時間、購買單品代碼、消費總金額、客戶 ID⋯⋯等等。兩邊的表格可以透過共通的「客戶 ID」這一項屬性連結起來。
  • 最後,銷售資料庫可以利用共通屬性「單品代碼」與存貨資料庫連結起來,進而有效互聯這三個獨立表格成為關聯式資料庫。

像這樣的結構化資料通常儲存在關聯式資料庫管理系統 (RDBMS)。可以利用結構化查詢語言 (SQL) 來寫入、讀取、操作資料庫,這種程式語言是 1970 年代 IBM 開發用來支援資料庫大型主機的,最初名稱叫作「序列英語查詢語言」,或者縮寫為 SEQUEL。這個名稱由來是因為它和英語一樣仰賴大量讀取。而現行的 SQL 形式則是由關連式軟體公司(現在的 Oracle)所普及化的。

什麼是非結構化資料?

所有不是結構化資料的資料都可以被歸類為非結構化資料。預估到了 2025 年我們所接觸的資料會有 80% 是非結構化資料,形式包括了文字、聲音、圖片、影像等1

簡單地說,非結構化資料就是現代化資料。這類資料通常是:

  • 數位化生成、不可預測
  • 持續產生、持續變動
  • 混合、多模式、互通性
  • 地理位置分散,以達更佳的資安保護

非結構化資料可以建立相關中繼資料,因而結構化。舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率 (FPS)、影片所有者⋯⋯等。但影片本身是無法結構化的。若非結構化資料有相關的結構化中繼資料,有時可稱為半結構化資料。

例如你可仔細觀察 YouTube 影片,它也呈現出了中繼資料,像是上傳時間、上傳日期、觀看次數(部分或整體)喜歡和不喜歡的點擊數⋯⋯等。但是影片標題內容、影片敘述以及影片本身是非結構化的。它涉及了「質」的內容,因而無單純以數字定量。

NoSQL 是最常用來存放非結構化資料的資料庫。NoSQL 代表「不只是 SQL」的意思,表示這種資料庫處理更廣泛範圍的資料,能完成 SQL 資料庫所不能勝任的任務。NoSQL 資料庫沒有固定模式或表格化的架構,它僅只是將資料收集並分類群組。

 

使用整合式高速檔案暨高速物件儲存 (UFFO) 解決方案來儲存非結構化資料

綜合以上內容,雖然非結構化資料能提供重要的深入見解,有很大的變革潛力,要想妥善處理這些資料仍然是艱鉅的挑戰。Pure Storage® FlashBlade® 是 Pure 推出的整合式高速檔案暨高速物件儲存 (UFFO) 解決方案,提供快閃儲存技術所需的處理速度,並具備靈活擴充基礎架構的能力。想了解更多嗎? 我們提供 Pure FlashBlade 免費試用版,讓你不必擔心投資花費,盡情測試解決方案。

相關產品及解決方案

解決方案
資料分析

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
白皮書
7 頁面
聯繫我們
問題或建議

如對Pure的產品或認證,有任何的疑問或建議,歡迎與我們聯繫!

預約試用

預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。 

聯絡我們:886-2-3725-7989

媒體:pr@purestorage.com

 

Pure Storage總部

34F, Taipei Nanshan Plaza,

No. 100, Songren Road,

Xinyi District,

Taipei City 110016

Taiwan (R.O.C.)

800-379-7873 (一般資訊)

info@purestorage.com

關閉
您的瀏覽器已不受支援!

較舊版的瀏覽器通常存在安全風險。為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。