《统计学习方法》——第六章逻辑斯谛回归与最大熵模型

文章目录

前言
一、逻辑斯谛回归模型
- 1.1逻辑斯谛分布
- 1.2二项逻辑斯谛回归模型
- 1.3 模型的参数估计
- 1.4 多项逻辑斯谛回归
二、最大熵模型
- 2.1 最大熵原理
- 2.2定义
- 2.3最大熵模型的学习
- 2.4极大似然估计
- 2.5模型学习的最优化算法
- - 1.改进的迭代尺度法IIS
总结

前言

本文只要记录一些书中的一些小知识点，挑一些本人认为重要的地方进行总结。

各位道友！道长(zhǎng) 道长(chǎng)

一、逻辑斯谛回归模型

1.1逻辑斯谛分布

设X是连续随机变量，X服从逻辑斯谛分布指X具有下列分布函数和密度函数：
$F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}}$
$f(x)=F'(x)=\frac {e^{-(x-\mu)/ \gamma}}{\gamma (1+e^{-(x-\mu)/ \gamma})^2}$
其中， $\mu$ 为位置参数, $\gamma>0$ 为形状参数。
1.它的分布函数以 $(\mu,\frac12)$ 中心对称。
2.曲线在中心附近增长速度较快，两端速度较慢。
3.形状参数 $\gamma$ 越小，曲线在中心增长的越快。
图形如下：

1.2二项逻辑斯谛回归模型

这是一种分类模型，他是如下的条件概率分布：
$P(Y=1|x)=\frac{\exp(w·x+b)}{1+\exp (w·x+b)}$
$P(Y=0|x)=\frac{1}{1+\exp (w·x+b)}$

$Y\in\{0,1\}$ 是输出， $\omega\in R^n$ 和 $\in R$ 是参数
$\omega$ 称为权值向量，b为偏置
$\omega·x$ 为内积

对于给定的输入实例x，按照如上式子可以去的相应的条件概率。逻辑斯谛回归比较两个条件概率值的大小，将实例x分到概率值大的那一类。
为了方便，将权值向量和输入向量扩充。 $\omega=( \omega^{(1)} , \omega^{(2)} ...\omega^{(n)},b)^T$ , $x={(x^{(1)},x^{(2)},...,x^{(n)},1)^T}$ 。
这时，模型如下：
$P(Y=1|x)=\frac{\exp(w·x)}{1+\exp (w·x)}$
$P(Y=0|x)=\frac{1}{1+\exp (w·x)}$

现在考察逻辑斯谛回归模型的特点：
一个事件的几率是该事件发生的概率与不发生概率的比值。若发生概率是p，则它的几率是 $\frac{p}{1-p}$ ，那么它的对数几率或logit函数是
$logit(p)=\frac{p}{1-p}$
对于逻辑斯谛回归而言，得(将 $P (Y = 1∣ x)$ 带入即可得，注意这里的log其实是ln)
$\log \frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega \cdot x$
也就是说，输出Y=1的对数几率是x的线性函数。或者说输出Y=1的对数几率是由输入x的线性函数表示的模型，积逻辑斯蒂回归模型。
换一个角度，考虑对输入x进行分类的的线性函数 $\omega \cdot x$ ,其值域是实数域。通过逻辑斯蒂定义式 $P (Y = 1∣ x)$ 可以将线性函数 $\omega \cdot x$ 转换成概率
$(Y=1|x)=\frac{\exp(w·x)}{1+\exp (w·x)}$
这时，

线性函数的值越接近正无穷，概率值越接近1。
线性函数越接近负无穷，概率值越接近0。

即之前的图像所示。

1.3 模型的参数估计

对于给定的训练集合 $T=\{(x_1,y_1),...,(x_N,y_N) \}$ , $y_i \in \{0,1\}$
可以应用极大似然估计法估计模型参数，得到逻辑斯谛模型。

首先设两个概率：
在这里插入图片描述
故他们的似然函数为：

对数似然函数为

对 $L(\omega)$ 求极大值，得到 $\omega$ 的估计值。
这样问题就变成了以对数似然函数为目标函数的最优化问题。通常采用梯度下降法和拟牛顿法进行目标函数的最优化。
假设 $\omega$ 的极大似然估计值是 $\hat\omega$ ,那么逻辑斯蒂回归模型为

$P(Y=1|x)=\frac{\exp(\hat w·x)}{1+\exp (\hat w·x)}$
$P(Y=0|x)=\frac{1}{1+\exp (\hat w·x)}$

1.4 多项逻辑斯谛回归

$P(Y=k|x)=\frac{\exp( w_k·x)}{1+\sum_{k=1}^{K-1}\exp ( w_k·x)}$
$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp ( w·x)}$

二、最大熵模型

2.1 最大熵原理

最大熵原理认为，所有可能的概率模型中，熵最大的模型是最好的模型。最大熵原理认为要选择的概率模型首先必须满足已有的事实（约束条件）。没有更多信息的情况下，那些不确定的部分都是“等可能的”
在这里插入图片描述

2.2定义

假设满足所有约束条件的模型集合为
$C=\{P \in P1|E_P(f_i)=E_{\tilde{P}}(f_i) \}$

定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为(如无说明，一般log都是ln)
$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)$

2.3最大熵模型的学习

对于给定数据集 $T=\{(x_1,y_1),...,(x_N,y_N)\}$ 和特征函数 $f_i(x,y)，i=1,2...,n$ ,最大熵模型的学习等价于约束最优化问题
$\max_{P\in C}H(P)=-\sum_{x,y} \tilde{P}(x) P(y|x) \log P(y|x)$
$s.t.\quad E_P(f_i)-E_{\tilde{P}}(f_i)=0 ,\quad i=1,2,...,n$
$\sum_{y}P(y|x)=1$