Okapi BM25(當中 BMbest matching 嘅簡稱)係一種用嚟做資訊提取函數。呢套演算法會攞用家問嘅嘢()做 input,然後同每份文件()計個分數()反映件文件對用家條問題嚟講幾有啦更[1][2]

算式

編輯

Okapi BM25 條式係噉嘅:

 ,當中[註 1]
  •    入面嘅每隻關鍵字
  •     入面出現得有幾密(相對於   嘅長度);
  •    嘅長度(以字數計);
  •   係摷咗嗰啲文件嘅平均長度;

  參數,好多時冇做最佳化嘅話就設做    [3]

  呢個分計法如下-

 
  • 當中   係摷咗嘅文件嘅數量,
  • 當中   摷咗嘅文件當中有幾多份係有   喺裏面嘅,
  • 如果   係一隻常用字(例如英文入面嘅 in 或者 of 呀噉),噉佢嘅   分數理應會低(  數值細);所以   呢嚿嘢嘅存在係為咗阻止啲常用字干擾搜尋結果。

計完之後,就會每份文件得出個分數   表示份文件對條問題嚟講幾有啦更,分數愈高表示愈有啦更,然後個搜尋器就可以按分數將啲摷到嘅文件列出嚟,分數最高嘅行先。Okapi BM25 源於 1980 年代,到咗廿一世紀初經已廣泛噉俾搜尋器採用。

註釋

編輯
  1.  加總

睇埋

編輯
  1. Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 1". Information Processing & Management. 36 (6): 779-808.
  2. Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 2". Information Processing & Management. 36 (6): 809-840.
  3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.