電腦領域,資料倉儲(英語:data warehouse,也稱為企業資料倉儲)是用於報告英語Business reporting資料分析的系統,被認為是商業智慧型的核心組件[1]。 資料倉儲是來自一個或多個不同源的整合資料的中央儲存庫。資料倉儲將當前和歷史資料儲存在一起[2],用於為整個企業的員工建立分析報告[3]

資料倉儲的總覽。

儲存在倉庫中的資料從執行系統(例如行銷或銷售)上傳。這些資料可能會通過一個ODS資料庫,並且可能需要進行額外操作的資料清理[2],以確保資料品質英語data quality,然後才能在資料倉儲中用於報告。

典型的基於提取、轉換、載入(ETL)的資料倉儲[4]使用分級資料整合和訪問層來存放其關鍵功能。分級層或分級資料庫儲存從每個不同的源資料系統中提取的原始資料。整合層通過轉換來自分級層的資料,將不同的資料集合在一起,通常將轉換後的資料儲存在ODS資料庫中。然後將整合的資料轉移到另一個資料庫(通常稱為資料倉儲資料庫),在這個資料庫中,資料被分為層次組(通常稱為維度),並被分成事實和聚合事實。事實和維度的組合有時被稱為星型模式。訪問層幫助使用者檢索資料。[5]

資料的主要來源被清理、轉換、分類,並提供給管理人員和其他商業專業人員用於資料探勘線上分析處理市場研究決策支援[6]。 然而,檢索和分析資料、提取、轉換和裝載資料以及管理資料字典的方法也被認為是資料倉儲系統的基本組成部分。許多資料倉儲的文獻都使用了這個更廣泛的語境。因此,資料倉儲的擴充定義包括商業智慧型工具英語business intelligence tools、提取、轉換和載入資料到儲存庫的工具,以及管理和檢索元資料的工具。

較簡易的解釋方式

資料倉儲是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。

利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。

較學術的解釋方式

資料倉儲 ,由資料倉儲之父比爾·英蒙英語Bill Inmon於1990年提出,主要功能乃是將組織透過資訊系統之線上交易處理(OLTP)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、資料探勘(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧型(BI)。

一般來說,資料倉儲可由關聯式資料庫,或專為資料倉儲開發的多維度資料庫建立,若由多維度資料庫建立而成,其架構可分為星狀及雪花狀架構,包含數個維度資料表,及一個事實資料表。

資料倉儲的建制不僅只是資訊工具技術面的運用,在規畫和執行面更需對產業知識、行銷管理、市場定位、策略規畫等相關條件有深入的了解,才能真正發揮資料倉儲以及後續分析工具的價值,提升組織競爭力。

資料倉儲的特性

  • 主題導向(Subject-Oriented)
有別於一般OLTP系統,資料倉儲資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。舉例如Party、Arrangement、Event、Product等。
  • 整合性(Integrated)
資料來自企業各OLTP系統,在資料倉儲中是整合過且一致的。
  • 時間差異性(Time-Variant)
資料的變動,在資料倉儲中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨著時間變化的資料軌跡。
  • 不變動性(Nonvolatile)
資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤)

ODS、資料倉儲和資料超市之異同

Operational data storeODS)、資料倉儲資料超市三者相同之處在於均不屬於任一OLTP系統,並且都是以資料導向的設計而非流程(process)導向。

相異之處在於,ODS的特性較著重於戰術性查詢,變動性大。資料倉儲通常為企業層級,用來解答即興式、臨時性的問題。而資料超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。

資料探勘、OLAP和資料倉儲

資料倉儲可以作為資料探勘OLAP等分析工具的資料來源,由於存放於資料倉儲中的資料,必需經過篩選與轉換,因此可以避免分析工具使用錯誤的資料,而得到不正確的分析結果。

資料探勘OLAP同為分析工具,其差別在於OLAP提供使用者一便利的多維度觀點和方法,以有效率的對資料進行複雜的查詢動作,其預設查詢條件由使用者預先設定,而資料探勘,則能由資訊系統主動發掘資料來源中,未曾被察覺的隱藏資訊,和透過使用者的認知以產生知識。

資料探勘(Data Mining)技術是經由自動或半自動的方法探勘及分析大量的資料,以建立有效的模型及規則,而企業透過資料探勘更瞭解他們的客戶,進而改進他們的行銷、業務及客服的運作。資料探勘是資料倉儲的一種重要運用。基本上,它是用來將你的資料中隱藏的資訊挖掘出來,所以Data Mining其實是所謂的Knowledge Discovery的一部份,Data Mining使用了許多統計分析與Modeling的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。Knowledge Discovery的過程對Data Mining的應用成功與否有重要的影響,只有它才能確保Data Mining能獲得有意義的結果。

參見

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.