等級聚類法粵拼dang2 kap1 zeoi6 leoi6 faat3英文hierarchical clustering)係最常用嘅聚類分析演算法之一。

一場 6 個個案嘅等級聚類嘅樹狀結構圖例子

概論

編輯
睇埋:聚類分析

等級聚類法大致可以分做兩大類[1]

  1. 凝聚式(Agglomerative)同埋
  2. 分割式(Divisive)。

凝聚式嘅演算法係噉嘅:一開始嗰陣當每一點(一點係一個個案)自成一個聚類,然後迴圈若干次,嘗試將拃個案結合做一個聚類[2]

 建立個矩陣(相似值矩陣),表示每對個案之間嘅相似值;
 設每個個案自成一個聚類;
 重複若干次:
   結合最接近(相似值最高)嗰兩個聚類;
   更新相似值矩陣;
 做到淨低一個聚類為止。

舉例說明,好似附圖嗰幅樹狀結構圖(dendrogram)噉,想像家陣有 6 個個案 a b c d e f;第一步將 a b c d e f 每個個案做一個聚類,第二步考慮相似度數值,將 b 同 c 結合變成 bc 以及將 d 同 e 結合變成 de;第三步又考慮相似度數值,將 de 同 f 結合變成 def;第四步考慮相似度數值,將 bc 同 def 結合變成 bcdef;最後一步,將 a 結合埋落去成一個單一聚類 abcdef;跟住研究者就會得到一幅樹狀結構圖,可以揀喺邊個位「切割」樖樹狀結構圖,決定啲聚類要點分(下圖條黑線係研究者打算設嘅切割點)。

 

分割式嘅等級聚類法,簡化講可以想像成上述過程嘅相反-開始嗰陣將啲個案冚唪唥當做一個聚類,每一步將「最唔相似」(例如離啲個案嘅中心點最遠)嗰個個案攞走畀佢自成一個聚類,切割到每個個案都係自成一個聚類為止[註 1][3]

優劣

編輯

一般認為,等級聚類法最大嘅弱點係要求部電腦做極大量嘅運算(技術性啲講,即係時間複雜度空間複雜度都高),個樣本一大少少,就要計好耐先計到結果。

註釋

編輯
  1. 不過喺 2020 年代初,分割式嘅等級聚類法明顯比較少人用。

睇埋

編輯
  1. Everitt, B. S., Landau, S., and Leese, M. (2001). Cluster Analysis, 4th edn. London: Arnold.
  2. Kaufman, L.; Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis (1 ed.). New York: John Wiley.
  3. Everitt, B. S. and Bullmore, E. T. (1999). Mixture model mapping of brain activation in functional magnetic resonance images. Human Brain Mapping 7, 1-14.