等級聚類法
呢篇文 需要熟悉呢方面嘅人幫手寫。 |
等級聚類法(粵拼:dang2 kap1 zeoi6 leoi6 faat3;英文:hierarchical clustering)係最常用嘅聚類分析演算法之一。
概論
編輯睇埋:聚類分析
等級聚類法大致可以分做兩大類[1]:
- 凝聚式(Agglomerative)同埋
- 分割式(Divisive)。
凝聚式嘅演算法係噉嘅:一開始嗰陣當每一點(一點係一個個案)自成一個聚類,然後迴圈若干次,嘗試將拃個案結合做一個聚類[2]-
建立個矩陣(相似值矩陣),表示每對個案之間嘅相似值; 設每個個案自成一個聚類; 重複若干次: 結合最接近(相似值最高)嗰兩個聚類; 更新相似值矩陣; 做到淨低一個聚類為止。
舉例說明,好似附圖嗰幅樹狀結構圖(dendrogram)噉,想像家陣有 6 個個案 a b c d e f;第一步將 a b c d e f 每個個案做一個聚類,第二步考慮相似度數值,將 b 同 c 結合變成 bc 以及將 d 同 e 結合變成 de;第三步又考慮相似度數值,將 de 同 f 結合變成 def;第四步考慮相似度數值,將 bc 同 def 結合變成 bcdef;最後一步,將 a 結合埋落去成一個單一聚類 abcdef;跟住研究者就會得到一幅樹狀結構圖,可以揀喺邊個位「切割」樖樹狀結構圖,決定啲聚類要點分(下圖條粗黑線係研究者打算設嘅切割點)。
分割式嘅等級聚類法,簡化講可以想像成上述過程嘅相反-開始嗰陣將啲個案冚唪唥當做一個聚類,每一步將「最唔相似」(例如離啲個案嘅中心點最遠)嗰個個案攞走畀佢自成一個聚類,切割到每個個案都係自成一個聚類為止[註 1][3]。
優劣
編輯一般認為,等級聚類法最大嘅弱點係要求部電腦做極大量嘅運算(技術性啲講,即係時間複雜度同空間複雜度都高),個樣本一大少少,就要計好耐先計到結果。
註釋
編輯- ↑ 不過喺 2020 年代初,分割式嘅等級聚類法明顯比較少人用。
睇埋
編輯攷
編輯- ↑ Everitt, B. S., Landau, S., and Leese, M. (2001). Cluster Analysis, 4th edn. London: Arnold.
- ↑ Kaufman, L.; Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis (1 ed.). New York: John Wiley.
- ↑ Everitt, B. S. and Bullmore, E. T. (1999). Mixture model mapping of brain activation in functional magnetic resonance images. Human Brain Mapping 7, 1-14.