最大似然估計英文maximum likelihood estimation,MLE)係廿一世紀初統計學上最常用估計模型參數數值嘅做法。最大似然估計會

  1. 先搵出一個機會率函數(probability function),呢個函數會反映「觀察到手上數據嘅數值」()同「模型參數」()之間嘅關係,
  2. 而最大似然估計演算法嘅目標係要搵出 嘅數值應該要係幾多先可以令 (已知模型參數係 噉嘅樣,觀察到手上呢柞數據嘅機會率)嘅數值有咁大得咁大[1][2]

可以表達成[3]

[註 1]

當中 係指「第 1 個個案喺變數 上嘅值係 咁多」嘅機會率,而 就係樣本大細

梯度下降法 編輯

假想而家有個演算法,初始化嗰陣個演算法將   設做隨機嘅數值,然後部電腦可以計「如果   係噉嘅樣,得到   呢柞數值」嘅機會率,跟住個演算用梯度下降法(gradient descent,SGD),即係考慮    之間嘅導數,嚟睇吓   向邊個方向變最有可能會提升  ,跟住就郁手改變   值,再計個新嘅   值出嚟,重複,如是者慢慢噉達到最大嘅  [4]

簡單講,梯度下降法呢個過程就好似爬山噉:想像下圖嘅 X 軸Y 軸(打橫平面)係個模型嘅兩個參數 ),而 Z 軸(打戙)就代表  ,梯度下降法會隨機噉將初始數值擺喺是但一點,然後[4]

  1. 睇吓自己身處嗰點周圍每個方向有幾斜,
  2. 揀最能夠令自己向上爬嗰一個方向,移去嗰個方向,
  3. 重複,直至某啲條件達到(例如   超過咗某個特定數值)為止。
 

睇埋 編輯

註釋 編輯

  1. 喺實際應用上,考慮咁多極細嘅數值可能會出現算術下溢嘅情況(指要處理嘅數值細過部電腦能夠表示嘅最細值),所以喺實際應用上要點樣計   有一定嘅學問。

編輯

  1. The Basics of Structural Equation Modeling (PDF).
  2. Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
  3. A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.
  4. 4.0 4.1 Hill Climbing Algorithms (and gradient descent variants) IRL 互聯網檔案館歸檔,歸檔日期2020年3月27號,..