數據倉庫
一种存储系统 来自维基百科,自由的百科全书
在電腦領域,數據倉庫(英語:data warehouse,也稱為企業數據倉庫)是用於報告和數據分析的系統,被認為是商業智能的核心組件[1]。 數據倉庫是來自一個或多個不同源的整合數據的中央儲存庫。數據倉庫將當前和歷史數據儲存在一起[2],用於為整個企業的員工建立分析報告[3]。
儲存在倉庫中的數據從執行系統(例如行銷或銷售)上載。這些數據可能會通過一個ODS資料庫,並且可能需要進行額外操作的數據清理[2],以確保數據質素,然後才能在數據倉庫中用於報告。
典型的基於提取、轉換、載入(ETL)的數據倉庫[4]使用分級、數據整合和訪問層來存放其關鍵功能。分級層或分級資料庫儲存從每個不同的源數據系統中提取的原始數據。整合層通過轉換來自分級層的數據,將不同的數據集合在一起,通常將轉換後的數據儲存在ODS資料庫中。然後將整合的數據轉移到另一個資料庫(通常稱為數據倉庫資料庫),在這個資料庫中,數據被分為層次組(通常稱為維度),並被分成事實和聚合事實。事實和維度的組合有時被稱為星型模式。訪問層幫助用戶檢索數據。[5]
數據的主要來源被清理、轉換、分類,並提供給管理人員和其他商業專業人員用於數據探勘、線上分析處理、市場研究和決策支援[6]。 然而,檢索和分析數據、提取、轉換和裝載數據以及管理數據字典的方法也被認為是數據倉庫系統的基本組成部分。許多數據倉庫的文獻都使用了這個更廣泛的語境。因此,數據倉庫的擴充定義包括商業智能工具、提取、轉換和載入數據到儲存庫的工具,以及管理和檢索元數據的工具。
較簡易的解釋方式
數據倉庫是一種資訊系統的數據儲存理論,此理論強調利用某些特殊數據儲存方式,讓所包含的數據,特別有利於分析處理,以產生有價值的資訊並依此作決策。
利用數據倉庫方式所存放的數據,具有一但存入,便不隨時間而更動的特性,同時存入的數據必定包含時間屬性,通常一個數據倉庫皆會含有大量的歷史性數據,並利用特定分析方式,自其中發掘出特定資訊。
較學術的解釋方式
數據倉庫 ,由數據倉庫之父比爾·英蒙於1990年提出,主要功能乃是將組織透過資訊系統之線上交易處理(OLTP)經年累月所累積的大量數據,透過數據倉庫理論所特有的數據儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、數據探勘(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量數據中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
一般來說,數據倉庫可由關聯式資料庫,或專為數據倉庫開發的多維度資料庫建立,若由多維度資料庫建立而成,其架構可分為星狀及雪花狀架構,包含數個維度數據表,及一個事實數據表。
數據倉庫的建制不僅只是資訊工具技術面的運用,在規劃和執行面更需對產業知識、行銷管理、市場定位、策略規劃等相關條件有深入的了解,才能真正發揮數據倉庫以及後續分析工具的價值,提升組織競爭力。
數據倉庫的特性
- 主題導向(Subject-Oriented)
- 有別於一般OLTP系統,數據倉庫的數據模型設計,着重將數據按其意義歸類至相同的主題區(subject area),因此稱為主題導向。舉例如Party、Arrangement、Event、Product等。
- 整合性(Integrated)
- 數據來自企業各OLTP系統,在數據倉庫中是整合過且一致的。
- 時間差異性(Time-Variant)
- 數據的變動,在數據倉庫中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨着時間變化的數據軌跡。
- 不變動性(Nonvolatile)
- 數據一旦確認寫入後是不會被取代或刪除的,即使數據是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤)
ODS、數據倉庫和數據超市之異同
Operational data store(ODS)、數據倉庫和數據超市三者相同之處在於均不屬於任一OLTP系統,並且都是以數據導向的設計而非流程(process)導向。
相異之處在於,ODS的特性較着重於戰術性查詢,變動性大。數據倉庫通常為企業層級,用來解答即興式、臨時性的問題。而數據超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。
數據探勘、OLAP和數據倉庫
數據倉庫可以作為數據探勘和OLAP等分析工具的數據來源,由於存放於數據倉庫中的數據,必需經過篩選與轉換,因此可以避免分析工具使用錯誤的數據,而得到不正確的分析結果。
數據探勘和OLAP同為分析工具,其差別在於OLAP提供用戶一便利的多維度觀點和方法,以有效率的對數據進行複雜的查詢動作,其預設查詢條件由用戶預先設置,而數據探勘,則能由資訊系統主動發掘數據來源中,未曾被察覺的隱藏資訊,和透過用戶的認知以產生知識。
數據探勘(Data Mining)技術是經由自動或半自動的方法探勘及分析大量的數據,以建立有效的模型及規則,而企業透過數據探勘更瞭解他們的客戶,進而改進他們的行銷、業務及客服的運作。數據探勘是數據倉庫的一種重要運用。基本上,它是用來將你的數據中隱藏的資訊挖掘出來,所以Data Mining其實是所謂的Knowledge Discovery的一部份,Data Mining使用了許多統計分析與Modeling的方法,到數據中尋找有用的特徵(Patterns)以及關連性(Relationships)。Knowledge Discovery的過程對Data Mining的應用成功與否有重要的影響,只有它才能確保Data Mining能獲得有意義的結果。
參見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.