DBSCAN 可以話係最多人用嘅基於密度聚類法之一[1][2],係Density-based spatial clustering of applications with noise嘅縮寫,喺1996年由Martin Ester、Hans-Peter Kriegel、Jörg Sander 同 Xiaowei Xu 提出。

步驟

編輯

步驟如下:

  • 想像有一點  ,如果佢周圍半徑   嘅範圍內超過咗   咁多點,噉佢就算係核心點(core);
  • 想像有兩點   ,如果  (兩點之間嘅距離)  ,噉   算係可以由   直接去到(directly reachable from  );順帶一提,  一定要係核心點。
  • 想像有兩點   ,如果有條路徑  ,當中   而且  ,期間每點(  等)都可以由打前嗰點直接去到嘅,噉   算係可以由   去到(reachable from  );
  • 所有「唔能夠由第啲點度去到」嘅點,冚唪唥當係雜訊

如果   係核心點,噉佢同所有由佢度去到嘅點成一個聚類。

用圖像表示嘅話,可以想像下圖:下圖  ,A 等嘅紅色點全部都係核心點,因為佢哋全部都有「周圍   咁遠嘅範圍(啲圓圈)內有超過   咁多點」呢種特性,黃色點 B 同 C 唔係核心點,但可以由 A 去到,於是啲紅色點加埋 B 同 C,就成一個聚類;藍色點 N 唔能夠由任何一點度去到,所以當係雜訊忽視。

 

睇埋

編輯

參考資料

編輯
  1. Kriegel, Hans-Peter; Kröger, Peer; Sander, Jörg; Zimek, Arthur (2011-04-05). "Density-based Clustering". WIREs Data Mining and Knowledge Discovery. 1 (3): 231–240. doi:10.1002/widm.30.
  2. Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. (編). A density-based algorithm for discovering clusters in large spatial databases with noise (PDF). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231. 原著 (PDF)喺2022年7月9號歸檔. 喺2022年9月26號搵到.