變分推斷英文Variational inference)或者話變分貝葉斯方法英文Variational Bayesian methods)係指啲一系列嘅技術,攞嚟逼近啲喺貝葉斯推論同埋機械學習中出現到嘅難整積分嘅。「變分」係意指喺某個範圍內改變啲初始簡單嘅分佈,去逼近個實際分佈;「推斷」意指從啲外顯變數推斷返啲潛在變數

背景

編輯

變分推斷或者話變分貝葉斯方法,主要係攞嚟處理啲複雜嘅統計模型,啲既有外顯變數又有潛在變數同埋未知參數嘅,嚟幫啲變數之間啲關係做建模。

根據貝葉斯推論

 

其中 係樣本, 係樣本反映嘅潛在變數。 表示畀有樣本 嗰陣啲 嘅分佈。

對於生成模型嚟講,可以根據潛在空間 生成潛在變數 ,再根據觀察空間 得到相應嘅新樣本 

反過嚟喺對啲 建模出 嗰陣,就需要用到 邊緣概似亦即係 ;注意到 即係對 期望形式,所以條式都可以寫成 嘅形式。同時亦都要根據貝葉斯推論從 抽出 亦即係潛在變數喺有嗰啲樣本嘅條件下個分佈情況。要對 建模可以用對數最大概似估計,即最大化某個 。但因爲邊緣概似當中個積分冇解析解,所以難幫佢做數值積分或者求梯度,而變分推斷可以處理到種情況。

數學推導

編輯

最大化估計

編輯

對數最大概似可以嘸直接對 建模,而係可以搵遞個簡單函數 係細過原本函數 嘅,作爲 下界(lower bound)之一,係噉有:

 

希望係最大化個 概似理應畀到對應嘅最大化 概似,但由於 係好複雜嘅函數,所以單單靠一隻 係嘸夠組成個 啲下界,所以需要一堆壘  喺個家族集合 裏頭又㔶齊 個範圍嘅,再喺啲 裏頭整返最大化 嚟間接幫 做最大化 

獲取啲下界函數

編輯

攞到啲下界函數 嘅方法可以係對個對數形式概率 進行變形。對於潛在變數 同埋某個佢個分佈 ,顯在嘅對數概率 可以寫得成 亦即係 嘅形式:

 

由於 ,所以有:

 

喺當中拆出 有:

 

注意到左右兩䊆分別可以表示成期望同埋KL散度,似下式:

 

個KL散度(即   )可以直觀啲噉理解爲:從 嚟睇, 戥佢走差有幾多;KL散度等於零嗰陣,兩樣嘢基本可以睇作係喺所有埞方都相等。因爲KL散度係非負(大於等於零),所以有:

 

即個 查實就係 嘅下界,亦即係證據下界(evidence lower bound,ELBO),記作 。所以最好就係 ,噉樣有KL散度爲零,個 又得最大化。但因爲 好難攞到,好多時衹有好特殊嘅算法情況下先做得到令兩便相等,種情況係期望–最大化算法(expectation–maximization algorithm,EM Algorithm)。簡單嚟講EM–Algorithm係調校個 嚟最細化個KL散度令到 得最大化先(即「Expectation」),再喺個 下搵返一個 最佳嘅令 最大,即又令到  方面得到最大化(即「Maximization」),再返去E動作繼續校細個 ……噉樣往復做落去最終去達到最佳。

睇埋

編輯