條件概率粵拼tiu4 gin2 koi3 leot2英文conditional probability)係概率論上一個概念,反映咗「已知呢個條件達到咗,呢件呢件事發生嘅機會率有幾高」噉嘅資訊。精確啲講,想像依家有兩件事件 ,當中 唔知發生咗未, 發生嘅機會率係 咁多,而假如 「係咪發生咗」會影響 ,研究者就好可能會想知 之間嘅條件概率。「已知 發生咗, 會發生」呢一個條件概率,喺數學上係噉嚟表達嘅:

條件概率 :已知一點屬 ,佢有幾大機率會屬 呢?

條件概率嘅概念,喺統計學等嘅領域上有相當嘅價值。响廿一世紀初,統計分析實會用到建基於條件概率嘅諗頭,例子可以睇吓統計功效(進階統計實會用到)等嘅基礎統計概念。除此之外,教 AI 處理語言嘅工作都會用到條件概率,例子可以睇吓 N-gram 相關嘅嘢。

基礎概念

編輯
内文:概率論機會率
睇埋:互斥事件

條件概率係概率論[e 1]上嘅一個重要概念。條件概率係指「如果已知[e 2]某某事件發生咗,另外一件事件會發生嘅機會率」,例如「已知   發生咗,  會發生」呢個條件概率,用數學符號寫如下:

 

根據廿一世紀初最常用嗰個定義,上述嘅數值可以用以下呢條式計[1]

  

呢條抽象嘅式可以用圖像化嘅方法嚟諗。想像以下呢一幅溫氏圖,每一笪空間都掕咗個數,個數表示嗰一件事件發生嘅機會率,例如      呢幾個泡沫外嗰笪空間係 0.34,表示呢四件事件冚唪唥都冇發生嘅機會率係 0.34 咁高。

 

噉想像而家要計  (已知   發生咗,  發生嘅機會率):

    都發生嘅機率)
   發生嘅機率)

  就會係

 

如果   互斥事件[e 3]嘅話,定義上表示佢哋一定唔會一齊發生,條數嘅計法就會係:

 

—「已知   發生咗而兩件事係互斥嘅,  唔會發生[註 1]。」

統計獨立

編輯
對比統計獨立同互斥事件
數值 如果兩者獨立... 如果兩者互斥...
     
     
     
内文:統計獨立
睇埋:條件獨立

統計獨立[e 4]係概率論上嘅另一個重要概念,可以用條件概率嚟諗。如果話某兩件或者某幾件事件係「彼此之間獨立嘅」,意思係指嗰幾件事件之間唔會影響對方發生嘅概率。用數學化啲嘅方式表達嘅話,如果話    呢兩件事件係獨立嘅,即係指[2]

 

諗返起條件概率嘅計法( ):

 

設咗    呢兩件事件係獨立嘅,掉一掉啲式:

 
 

——由此可見,假如兩件事件統計獨立,就表示「知道   發生咗」並唔影響「預計   有幾大機會發生」。除此之外,仲可以思考吓條件獨立[e 5]:設   做條件,如果話    喺呢個條件下有條件獨立,意思即係話[3]

 

或者

 

上述兩條式係同等嘅。

條件獨立:推導方法

  → 根據條件概率嘅定義...

iff   → 兩邊齊齊乘  ...

iff   → 兩邊齊齊除  ...

iff   → 根據條件概率嘅定義...

iff  

喺呢個情況下,如果已知   發生咗,  係咪發生咗唔會影響   發生嘅機會率,同時  係咪發生咗唔會影響   發生嘅機會率。即係可以想像成「呢兩件事件喺某啲條件達到咗嘅情況下,會係彼此獨立嘅」[3]

常見誤解

編輯

响廿一世紀初,條件概率謬論[e 6]係對條件概率嘅一個常見誤解,講到啲人成日有種信念,諗住以下嘅嘢實會成立:

 

意思即係話佢哋諗住    數值實係差唔多嘅——「將條件概率入便嗰兩件事掉轉,得出嘅數值應該唔會爭好遠」。呢個諗法其實係錯誤嘅[4],用圖像化嘅方式思考,可以睇睇以下幅圖:

 

設深色嗰笪做  粵拼sam1),  佔咗   嘅一小橛,即係話   係一個細嘅數值。但相對嚟講,如果一點屬於  ,佢一定會係屬於   ——

 

由此可見,   兩個條件概率爭好遠。數學化啲講,可以思考吓貝葉斯定理[e 7]講嘅嘢[5]

 

由上述嘅分析可知,要達致    呢句嘢先會成立。

應用例子

編輯

N-gram

編輯
内文:N-gram

自然語言處理[e 8]人工智能嘅一個學科,專門研究點樣教電腦處理粵語或者英文等嘅自然語言。自然語言本質上就係前後連貫嘅,已經聽咗或者睇咗嘅符號語音或者文字都可以算符號)會影響跟住落嚟嗰啲符號要點樣理解[註 2],所以好多自然語言處理技術都會用到條件概率。

舉個簡單例子說明,N-gram 係一種相對簡單嘅自然語言處理技術,但係經已可以攞嚟教電腦分辨一段文字係咩語言[6]。想像依家有一串 100 隻字符咁長嘅符號,一個 3-gram 嘅演算法會睇每串連續三個符號係乜嘢樣,再用前兩個符號嘅樣估跟住嗰個符號最有可能會係乜;例如想像家陣手上有串噉嘅粵語字[7][8]

我星期日會同阿爺阿嫲去飲茶,最鍾意嗌燒賣嚟食。

依家只睇呢段字:如果打前兩個字符係鍾意,跟住嗰個符號係嘅機率係 100% 咁高:响呢一串字入面,鍾意出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕」嘅機率係 100%。實際應用當中嘅 n-gram 會用極大量嘅語言資源嚟做類似嘅估計,計出一隻語言啲字符以至字詞之間嘅統計關係。數學化噉講,一個 n-gram 模型定義上係用[9]

 

嘅數值嚟預測  ,從而計出

 

——即係要計「已知前面嗰串符號係   噉嘅樣,  會係噉噉噉樣」噉嘅條件概率。淨係靠住用呢種方法做嘅 n-gram,已經可以做到某一啲比較基礎嘅自然語言處理工作,好似係語言辨認噉——例如同中文書面語(原則上係建基於標準官話嘅)比起嚟,粵語白話文名詞後面應該比較大機會出現呢隻字,所以一個人工智能可以靠呢啲條件概率,分辨唔同嘅語言。

關聯規則

編輯
 
互補品嘅概念:花生可以攞嚟送燒酒,啲人買親燒酒係咪大機會會買埋花生呢?
内文:關聯規則
睇埋:替代品互補品

關聯規則[e 9]相關嘅分析,會用到條件概率呢個概念。關聯規則可以理解為一啲「如果... 就...」噉嘅法則,描繪數據裡便啲變數之間有咩關係。依家想像有班做營銷[e 10]工作嘅分析師,想探知消費者買嘢嗰陣嘅習慣係點,佢哋由一間超市嗰度攞咗數據,得知某年某月某日,到訪嗰間超市嘅客每個人買咗啲乜,即係話手上嘅數據望落好似噉[10][11]

顧客 A:
荔枝啤酒白米豬肉
顧客 B:
荔枝、啤酒、白米
顧客 C:
芝士、啤酒、白米、豬肉
下略大約 6,000 個個案...

喺最基本上,班分析師可以計吓每種貨品有人買嘅機率係幾多(支持度[e 11]),例如設   做一個客「買荔枝嘅機會率」,  可以好簡單噉計到出嚟:

 

班分析師可以做更進階嘅分析。除咗計一件貨品支持度有幾高,佢哋仲可以[11]

  • 決定攞走所有支持度(例如)低過 1% 嘅貨品,唔再對佢哋進行分析;
  • 信心度[e 12]:設 C 同 D 做間超市嘅其中兩件貨品,關聯規則分析上講嘅信心度所指嘅,就係「如果某個客買咗 C,佢會買 D 嘅機會率」,設  (取自粵語十扑)做支持度,即係[12]
     
  • 提升度[e 13]:齋靠信心度係唔夠嘅,噉係因為信心度呢個指標並冇考慮到貨品 D 幾多人買( )。提升度可以詮釋做「設商品 D 嘅支持度做恆常[註 3],C 至 D 嘅信心度」,即係話
      [註 4]

做咗呢啲分析之後,營銷分析師就可以預測客人行為[13],可以用各種手法圖利(或者做啲嘢方便顧客)。例如如果知道咗客人買親 C 傾向會買埋 D,賣方就可以做減價嗰陣特登淨係同 C 或者 D 其中一樣做減價,又或者暗中將啲賣 D 嘅廣告 show 畀買咗 C 嘅客睇... 等等[14]

睇埋

編輯

註釋

編輯
  1. 或者精確啲講,係近乎完全冇可能會發生。
  2. 可以睇睇語境句法等嘅概念。
  3. 亦可以睇吓控制變數嘅概念。
  4. 如果呢個數值係 1,表示買唔買 C買唔買 D 之間根本冇啦掕。如果個數值大過 1,就表示買 C 會提升買 D 嘅機率。如果個數值細過 1,就表示買 C 會降低買 D 嘅機率。

引述

編輯

呢篇文用咗嗰啲行話詞彙嘅英文版:

  1. probability theory,專門研究機會率嘅一套數學理論
  2. given
  3. mutually exclusive
  4. statistical independence
  5. conditional independence
  6. conditional probability fallacy / confusion of the inverse
  7. Bayes' theorem
  8. natural language processing,NLP
  9. association rule
  10. marketing
  11. support
  12. confidence
  13. lift

呢篇文引用咗嘅文獻網頁

  1. Kolmogorov, Andrey (1956), Foundations of the Theory of Probability, Chelsea.
  2. Russell, Stuart; Norvig, Peter (2002). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 478.
  3. 3.0 3.1 Horimoto, K. (2013). Conditional Independence. In: Dubitzky, W., Wolkenhauer, O., Cho, KH., Yokota, H. (eds) Encyclopedia of Systems Biology. Springer, New York, NY.
  4. Paulos, J.A. (1988) Innumeracy: Mathematical Illiteracy and its Consequences, Hill and Wang. (p. 63 et seq.)
  5. Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I - Distribution Theory, Edward Arnold, §8.7
  6. Russell, S., & Norvig, P. (2002). Artificial intelligence: a Modern Approach. Pearson. Ch. 2.
  7. Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4), 467-479.
  8. Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing. Stanford University. Ch. 3.
  9. Millington, I. (2019). AI for Games. CRC Press. p. 582-584.
  10. Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
  11. 11.0 11.1 (英文) 簡介點樣用 R 程式語言嚟做關聯規則探勘,講到關聯規則探勘當中嘅 support-confidence-lift 三大指標。
  12. Hornik, K., Grün, B., & Hahsler, M. (2005). arules - A computational environment for mining association rules and frequent item sets. Journal of Statistical Software, 14(15), 1-25.
  13. Kumbhare, T. A., & Chobe, S. V. (2014). An overview of association rule mining algorithms. International Journal of Computer Science and Information Technologies, 5(1), 927-930. "The performance of FP-growth is better than all other algorithms."
  14. Ng, A., & Soo, K. (2017). Numsense! Data Science for the Layman. Annalyn Ng and Kenneth Soo.