拉普拉斯近似
目标:因为待近似的分布$p(\pmb{z})$不是高斯分布,故寻找一个高斯近似$q(\pmb{z})$,它的中心位于$p(\pmb{z})$的众数的位置。
思路:将待近似的分布$p(\pmb{z})$在众数$\pmb{z}_0$做泰勒展开,去掉三阶项以及更高阶。
假设待近似分布为$M$维$p(\pmb{z})=\frac{f(\pmb{z})}{Z}$,在众数$\pmb{z}_0$处展开,有
其中,$M\times M$的Hessian矩阵$A=-\nabla\nabla\ln f(\pmb{z})|_{\pmb{z}=\pmb{z}_0}$。两边同取指数,有
分布$q(\pmb{z})$正比于$f(\pmb{z})$,因此
其中,这个高斯分布well-define的前提为$A$是正定的,即驻点$\pmb{z}_0$必须为一个局部极大值。在实际应用拉普拉斯近似时需计算众数,一般通过数值优化算法得到。
缺点:对于多峰问题会给出较差的结果。
优点:在数据点较多的情况下,会更有用。
贝叶斯Logistic回归
Logistic回归不能进行精确的贝叶斯推断的原因:后验分布为先验分布与似然函数的乘积的归一化,而似然函数为一系列sigmoid函数的乘积。
对后验分布做拉普拉斯近似
假设参数$\pmb{w}$有高斯先验
其中,$\pmb{m}_0$和$S_0$为固定的超参数。$\pmb{w}$的后验分布为
化简可得对数后验为
其中,符号与上一篇文章一致。现在,只需极大化后验概率分布,求出MAP解$\pmb{w}_{MAP}$,再根据前面的拉普拉斯近似结果可得后验分布的高斯近似为
其中,
预测分布
给定一个新的特征向量$\phi(\pmb{x})$,类别$C_1$的预测分布可对后验概率$p(\pmb{w}|\textbf{t})$积分得到
具体求解预测分布过程见参考$\S4.5.2$。