數據探勘
維基百科,自由的 encyclopedia
數據探勘(英語:Data mining)是一個跨學科的電腦科學分支[1][2][3] 。它是用人工智能、機器學習、統計學和資料庫的交叉方法在相對較大型的數據集中發現模式的計算過程[1]。
數據探勘過程的總體目標是從一個數據集中提取資訊,並將其轉換成可理解的結構,以進一步使用[1]。除了原始分析步驟,它還涉及到資料庫和數據管理方面、數據預處理(英語:data pre-processing)、模型與推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、視覺化及線上更新等後處理[1]。數據探勘是「資料庫知識發現」(Knowledge-Discovery in Databases, KDD)的分析步驟[4] ,本質上屬於機器學習的範疇。
類似詞語「資料採礦」、「數據捕魚」和「數據探測」指用數據探勘方法來採樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。