等級聚類法

等級聚類法（粵拼：dang2 kap1 zeoi6 leoi6 faat3；英文：hierarchical clustering）係最常用嘅聚類分析演算法之一。

概論

等級聚類法大致可以分做兩大類^[1]：

凝聚式（Agglomerative）同埋
分割式（Divisive）。

凝聚式嘅演算法係噉嘅：一開始嗰陣當每一點（一點係一個個案）自成一個聚類，然後迴圈若干次，嘗試將拃個案結合做一個聚類^[2]－

 建立個矩陣（相似值矩陣），表示每對個案之間嘅相似值；
 設每個個案自成一個聚類；
 重複若干次：
   結合最接近（相似值最高）嗰兩個聚類；
   更新相似值矩陣；
 做到淨低一個聚類為止。

舉例說明，好似附圖嗰幅樹狀結構圖（dendrogram）噉，想像家陣有 6 個個案 a b c d e f；第一步將 a b c d e f 每個個案做一個聚類，第二步考慮相似度數值，將 b 同 c 結合變成 bc 以及將 d 同 e 結合變成 de；第三步又考慮相似度數值，將 de 同 f 結合變成 def；第四步考慮相似度數值，將 bc 同 def 結合變成 bcdef；最後一步，將 a 結合埋落去成一個單一聚類 abcdef；跟住研究者就會得到一幅樹狀結構圖，可以揀喺邊個位「切割」樖樹狀結構圖，決定啲聚類要點分（下圖條粗黑線係研究者打算設嘅切割點）。

分割式嘅等級聚類法，簡化講可以想像成上述過程嘅相反－開始嗰陣將啲個案冚唪唥當做一個聚類，每一步將「最唔相似」（例如離啲個案嘅中心點最遠）嗰個個案攞走畀佢自成一個聚類，切割到每個個案都係自成一個聚類為止^{[註 1]}^[3]。

優劣

一般認為，等級聚類法最大嘅弱點係要求部電腦做極大量嘅運算（技術性啲講，即係時間複雜度同空間複雜度都高），個樣本一大少少，就要計好耐先計到結果。

註釋

↑ 不過喺 2020 年代初，分割式嘅等級聚類法明顯比較少人用。

睇埋

攷

↑ Everitt, B. S., Landau, S., and Leese, M. (2001). Cluster Analysis, 4th edn. London: Arnold.
↑ Kaufman, L.; Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis (1 ed.). New York: John Wiley.
↑ Everitt, B. S. and Bullmore, E. T. (1999). Mixture model mapping of brain activation in functional magnetic resonance images. Human Brain Mapping 7, 1-14.

呢篇統計學文係楔位文。歡迎幫維基百科擴寫佢。

[3] 不過喺 2020 年代初，分割式嘅等級聚類法明顯比較少人用。

[1] Everitt, B. S., Landau, S., and Leese, M. (2001). Cluster Analysis, 4th edn. London: Arnold.

[2] Kaufman, L.; Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis (1 ed.). New York: John Wiley.

[4] Everitt, B. S. and Bullmore, E. T. (1999). Mixture model mapping of brain activation in functional magnetic resonance images. Human Brain Mapping 7, 1-14.

[1]

[2]

[註 1]

[3]