线性分类模型(三)——判别式模型

判别式方法:直接对条件概率分布$p(C_k|\pmb{x})$进行建模。
相比生成式方法有两个优点:需要训练的参数更少,预测表现会提升(尤其当类条件概率密度的假设没有很好的近似真实分布的时候)。

logistic回归

对于二分类问题,类别$C_1$的后验概率为

可见,对于$M$维特征空间$\pmb{\phi}$,该模型只有$M$个可调节参数,而生成式模型需要调节参数总数为$\frac{M(M+5)}{2}+1$。
对于一个数据集$\{\pmb{\phi}_n,t_n\}$,其中,$t_n\in \{0,1\}$且$\pmb{\phi}_n=\phi(\pmb{x}_n)$,$n=1,2,\cdots,N$。
似然函数为

其中,$\textbf{t}=(t_1,t_2,\cdots,t_N)^\top$。通过对似然函数取负对数的方式定义一个误差函数,即交叉熵(cross-entropy)误差函数

对$\pmb{w}$求梯度,可得

注:最大似然方法对于线性可分的数据集会产生严重的过拟合。

迭代重加权最小平方(IRLS)

logistic回归不再有解析解,故需要用Newton-Raphson迭代

其中,$H$是Hessian矩阵,其元素为$E(\pmb{w})$关于$\pmb{w}$的二阶导数。
推导可得

其中,$N\times N$的对角矩阵$R$元素为$R_{nn}=y_n(1-y_n)$。由于$o<y_n<1$,故对任意向量$u$都有$u^\top Hu>0$,即$H$正定,因此误差函数是$\pmb{w}$的凸函数,有唯一最小值。

softmax分类

对于多分类问题,后验概率为

其中,$a_k=\pmb{w}_k^\top\pmb{\phi}$。求导,有

从而,似然函数为

其中,$y_{nk}=y_k(\pmb{\phi}_n)$,$T$是一个$N\times K$的矩阵,元素$t_{nk}$为1-of-K编码值。
交叉熵误差函数为

同样利用Newton-Raphson迭代可求解。

参考

“Pattern Recognition and Machine Learning”