變分推斷(英文:Variational inference)或者話變分貝葉斯方法(英文:Variational Bayesian methods)係指啲一系列嘅技術,攞嚟逼近啲喺貝葉斯推論同埋機械學習中出現到嘅難整積分嘅。「變分」係意指喺某個範圍內改變啲初始簡單嘅分佈,去逼近個實際分佈;「推斷」意指從啲外顯變數推斷返啲潛在變數。
對數最大概似可以嘸直接對 建模,而係可以搵遞個簡單函數 係細過原本函數 嘅,作爲 下界(lower bound)之一,係噉有:
-
希望係最大化個 概似理應畀到對應嘅最大化 概似,但由於 係好複雜嘅函數,所以單單靠一隻 係嘸夠組成個 啲下界,所以需要一堆壘 喺個家族集合 裏頭又㔶齊 個範圍嘅,再喺啲 裏頭整返最大化 嚟間接幫 做最大化 。
攞到啲下界函數 嘅方法可以係對個對數形式概率 進行變形。對於潛在變數 同埋某個佢個分佈 ,顯在嘅對數概率 可以寫得成 亦即係 嘅形式:
-
由於 ,所以有:
-
喺當中拆出 有:
-
注意到左右兩䊆分別可以表示成期望同埋KL散度,似下式:
-
個KL散度(即 )可以直觀啲噉理解爲:從 嚟睇, 戥佢走差有幾多;KL散度等於零嗰陣,兩樣嘢基本可以睇作係喺所有埞方都相等。因爲KL散度係非負(大於等於零),所以有:
-
即個 查實就係 嘅下界,亦即係證據下界(evidence lower bound,ELBO),記作 。所以最好就係 ,噉樣有KL散度爲零,個 又得最大化。但因爲 好難攞到,好多時衹有好特殊嘅算法情況下先做得到令兩便相等,種情況係期望–最大化算法(expectation–maximization algorithm,EM Algorithm)。簡單嚟講EM–Algorithm係調校個 嚟最細化個KL散度令到 得最大化先(即「Expectation」),再喺個 下搵返一個 最佳嘅令 最大,即又令到 喺 方面得到最大化(即「Maximization」),再返去E動作繼續校細個 ……噉樣往復做落去最終去達到最佳。