最大似然估計

最大似然估計（英文：maximum likelihood estimation，MLE）係廿一世紀初統計學上最常用估計模型參數數值嘅做法。最大似然估計會

先搵出一個機會率函數（probability function），呢個函數會反映「觀察到手上數據嘅數值」（ $X$ ）同「模型參數」（ $\theta$ ）之間嘅關係，
而最大似然估計演算法嘅目標係要搵出 $\theta$ 嘅數值應該要係幾多先可以令 ${\text{Pr}}(X|\theta )$ （已知模型參數係 $\theta$ 噉嘅樣，觀察到手上呢柞數據嘅機會率）嘅數值有咁大得咁大^[1]^[2]。

${\text{Pr}}(X|\theta )$ 可以表達成^[3]：

{\text{Pr}}(x_{1}\cap x_{2}\cap ...\cap x_{n}|\theta )

^{[註 1]}

當中 ${\text{Pr}}(x_{1})$ 係指「第 1 個個案喺變數 $x$ 上嘅值係 $x_{1}$ 咁多」嘅機會率，而 $n$ 就係樣本大細。

梯度下降法

假想而家有個演算法，初始化嗰陣個演算法將 $\theta$ 設做隨機嘅數值，然後部電腦可以計「如果 $\theta$ 係噉嘅樣，得到 $X$ 呢柞數值」嘅機會率，跟住個演算用梯度下降法（gradient descent，SGD），即係考慮 ${\text{Pr}}(X|\theta )$ 同 $\theta$ 之間嘅導數，嚟睇吓 $\theta$ 向邊個方向變最有可能會提升 ${\text{Pr}}(X|\theta )$ ，跟住就郁手改變 $\theta$ 值，再計個新嘅 ${\text{Pr}}(X|\theta )$ 值出嚟，重複，如是者慢慢噉達到最大嘅 ${\text{Pr}}(X|\theta )$ 值^[4]。

簡單講，梯度下降法呢個過程就好似爬山噉：想像下圖嘅 X 軸同 Y 軸（打橫平面）係個模型嘅兩個參數（ $\theta$ ），而 Z 軸（打戙）就代表 ${\text{Pr}}(X|\theta )$ ，梯度下降法會隨機噉將初始數值擺喺是但一點，然後^[4]

睇吓自己身處嗰點周圍每個方向有幾斜，
揀最能夠令自己向上爬嗰一個方向，移去嗰個方向，
重複，直至某啲條件達到（例如 ${\text{Pr}}(X|\theta )$ 超過咗某個特定數值）為止。

睇埋

最佳化

註釋

↑ 喺實際應用上，考慮咁多極細嘅數值可能會出現算術下溢嘅情況（指要處理嘅數值細過部電腦能夠表示嘅最細值），所以喺實際應用上要點樣計 ${\text{Pr}}(X|\theta )$ 有一定嘅學問。

攷

↑ The Basics of Structural Equation Modeling (PDF).
↑ Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.
↑ A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.
↑ ^4.0 ^4.1 Hill Climbing Algorithms (and gradient descent variants) IRL 互聯網檔案館嘅歸檔，歸檔日期2020年3月27號，..

[4] 喺實際應用上，考慮咁多極細嘅數值可能會出現算術下溢嘅情況（指要處理嘅數值細過部電腦能夠表示嘅最細值），所以喺實際應用上要點樣計 ${\text{Pr}}(X|\theta )$ 有一定嘅學問。

[1] The Basics of Structural Equation Modeling (PDF).

[2] Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227.

[3] A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning.

[hill-5] 4.0 ^4.1 Hill Climbing Algorithms (and gradient descent variants) IRL 互聯網檔案館嘅歸檔，歸檔日期2020年3月27號，..

[1]

[2]

[3]

[註 1]

[4]