线性分类模型(四)——贝叶斯观点下的Logistic回归

拉普拉斯近似

目标:因为待近似的分布$p(\pmb{z})$不是高斯分布,故寻找一个高斯近似$q(\pmb{z})$,它的中心位于$p(\pmb{z})$的众数的位置。
思路:将待近似的分布$p(\pmb{z})$在众数$\pmb{z}_0$做泰勒展开,去掉三阶项以及更高阶。

假设待近似分布为$M$维$p(\pmb{z})=\frac{f(\pmb{z})}{Z}$,在众数$\pmb{z}_0$处展开,有

其中,$M\times M$的Hessian矩阵$A=-\nabla\nabla\ln f(\pmb{z})|_{\pmb{z}=\pmb{z}_0}$。两边同取指数,有

分布$q(\pmb{z})$正比于$f(\pmb{z})$,因此

其中,这个高斯分布well-define的前提为$A$是正定的,即驻点$\pmb{z}_0$必须为一个局部极大值。在实际应用拉普拉斯近似时需计算众数,一般通过数值优化算法得到。
缺点:对于多峰问题会给出较差的结果。
优点:在数据点较多的情况下,会更有用。

贝叶斯Logistic回归

Logistic回归不能进行精确的贝叶斯推断的原因:后验分布为先验分布与似然函数的乘积的归一化,而似然函数为一系列sigmoid函数的乘积。

对后验分布做拉普拉斯近似

假设参数$\pmb{w}$有高斯先验

其中,$\pmb{m}_0$和$S_0$为固定的超参数。$\pmb{w}$的后验分布为

化简可得对数后验为

其中,符号与上一篇文章一致。现在,只需极大化后验概率分布,求出MAP解$\pmb{w}_{MAP}$,再根据前面的拉普拉斯近似结果可得后验分布的高斯近似为

其中,

预测分布

给定一个新的特征向量$\phi(\pmb{x})$,类别$C_1$的预测分布可对后验概率$p(\pmb{w}|\textbf{t})$积分得到

具体求解预测分布过程见参考$\S4.5.2$。

参考

“Pattern Recognition and Machine Learning”