變分推斷

出自維基百科,自由嘅百科全書

變分推斷英文Variational inference)或者話變分貝葉斯方法英文Variational Bayesian methods)係指啲一系列嘅技術,攞嚟逼近啲喺貝葉斯推論同埋機械學習中出現到嘅難整積分嘅。「變分」係意指喺某個範圍內改變啲初始簡單嘅分佈,去逼近個實際分佈;「推斷」意指從啲外顯變數推斷返啲潛在變數

背景[編輯]

變分推斷或者話變分貝葉斯方法,主要係攞嚟處理啲複雜嘅統計模型,啲既有外顯變數又有潛在變數同埋未知參數嘅,嚟幫啲變數之間啲關係做建模。

根據貝葉斯推論

其中係樣本,係樣本反映嘅潛在變數。表示畀有樣本嗰陣啲嘅分佈。

對於生成模型嚟講,可以根據潛在空間生成潛在變數,再根據觀察空間得到相應嘅新樣本

反過嚟喺對啲建模出嗰陣,就需要用到邊緣概似亦即係;注意到即係對期望形式,所以條式都可以寫成嘅形式。同時亦都要根據貝葉斯推論從抽出亦即係潛在變數喺有嗰啲樣本嘅條件下個分佈情況。要對建模可以用對數最大概似估計,即最大化某個。但因爲邊緣概似當中個積分冇解析解,所以難幫佢做數值積分或者求梯度,而變分推斷可以處理到種情況。

數學推導[編輯]

最大化估計[編輯]

對數最大概似可以嘸直接對建模,而係可以搵遞個簡單函數係細過原本函數嘅,作爲下界(lower bound)之一,係噉有:

希望係最大化個概似理應畀到對應嘅最大化概似,但由於係好複雜嘅函數,所以單單靠一隻係嘸夠組成個啲下界,所以需要一堆壘 喺個家族集合裏頭又㔶齊個範圍嘅,再喺啲裏頭整返最大化嚟間接幫做最大化

獲取啲下界函數[編輯]

攞到啲下界函數嘅方法可以係對個對數形式概率進行變形。對於潛在變數同埋某個佢個分佈,顯在嘅對數概率可以寫得成亦即係嘅形式:

由於,所以有:

喺當中拆出有:

注意到左右兩䊆分別可以表示成期望同埋KL散度,似下式:

個KL散度(即 )可以直觀啲噉理解爲:從嚟睇,戥佢走差有幾多;KL散度等於零嗰陣,兩樣嘢基本可以睇作係喺所有埞方都相等。因爲KL散度係非負(大於等於零),所以有:

即個查實就係嘅下界,亦即係證據下界(evidence lower bound,ELBO),記作。所以最好就係,噉樣有KL散度爲零,個又得最大化。但因爲好難攞到,好多時衹有好特殊嘅算法情況下先做得到令兩便相等,種情況係期望–最大化算法(expectation–maximization algorithm,EM Algorithm)。簡單嚟講EM–Algorithm係調校個嚟最細化個KL散度令到得最大化先(即「Expectation」),再喺個下搵返一個最佳嘅令最大,即又令到方面得到最大化(即「Maximization」),再返去E動作繼續校細個……噉樣往復做落去最終去達到最佳。

睇埋[編輯]