資料倉儲
數據倉庫 / 維基百科,自由的 encyclopedia
在計算機領域,數據倉庫(英語:data warehouse,也稱為企業數據倉庫)是用於報告(英語:Business reporting)和數據分析的系統,被認為是商業智能的核心組件[1]。 數據倉庫是來自一個或多個不同源的集成數據的中央存儲庫。數據倉庫將當前和歷史數據存儲在一起[2],用於為整個企業的員工創建分析報告[3]。
存儲在倉庫中的數據從運行系統(例如營銷或銷售)上傳。這些數據可能會通過一個ODS數據庫,並且可能需要進行額外操作的數據清理[2],以確保數據質量(英語:data quality),然後才能在數據倉庫中用於報告。
典型的基於提取、轉換、加載(ETL)的數據倉庫[4]使用分級、數據集成和訪問層來存放其關鍵功能。分級層或分級數據庫存儲從每個不同的源數據系統中提取的原始數據。集成層通過轉換來自分級層的數據,將不同的數據集合在一起,通常將轉換後的數據存儲在ODS數據庫中。然後將集成的數據轉移到另一個數據庫(通常稱為數據倉庫數據庫),在這個數據庫中,數據被分為層次組(通常稱為維度),並被分成事實和聚合事實。事實和維度的組合有時被稱為星型模式。訪問層幫助用戶檢索數據。[5]
數據的主要來源被清理、轉換、分類,並提供給管理人員和其他商業專業人員用於數據挖掘、線上分析處理、市場研究和決策支持[6]。 然而,檢索和分析數據、提取、轉換和裝載數據以及管理數據字典的方法也被認為是數據倉庫系統的基本組成部分。許多數據倉庫的文獻都使用了這個更廣泛的語境。因此,數據倉庫的擴展定義包括商業智能工具(英語:business intelligence tools)、提取、轉換和加載數據到存儲庫的工具,以及管理和檢索元數據的工具。