聚類分析
From Wikipedia, the free encyclopedia
聚類分析(粵拼:zeoi6 leoi6 fan1 sik1;英文:cluster analysis / clustering)係一種常用嘅統計分析,目的係要令一個組(聚類)入面嘅物件彼此之間相似,但同個組以外嘅物件唔相似;精確啲講即係[1]
最基本上,聚類分析可以用附圖嗰種方法想像:圖入面拃點當中每一粒,都喺 X 軸(表示一個變數)同 Y 軸(表示另一個變數)度有個位置,但就噉用肉眼睇都睇得出,啲點可以分做三大類(唔同色嘅點),每個聚類[歐 1]都係「個聚類入面啲點,彼此之間距離近,同時又冚唪唥都係同聚類外嘅點距離遠嘅」;聚類分析就可以想像成「同啲點油顏色,表示每點屬邊個聚類」嘅過程[2][3]。
聚類分析有廣泛嘅用途:淨係講社會科學嘅話,聚類分析喺市場學上可以攞嚟將消費者分類(每位消費者做一點),從而幫手預測消費者嘅行為[4],又可以喺醫療相關工作上攞嚟按「有冇傾向做運動等健康嘅行為」將啲人(每個人做一點)分類,幫手研究「邊啲人比較傾向有食煙飲酒等唔健康嘅行為」等嘅問題[5]。因為聚類分析咁有用,由統計學以至機械學習等嘅領域,都有工作者專職研究呢種分析嘅數學特性。
篇文以下嘅內容,假設讀者已經識基礎嘅統計學。