最大似然估计、KL散度和交叉熵

news/2024/11/29 13:45:29/

深度学习建立在概率论的基础上，本质是估计数据集(具有随机误差)的分布，即定义模型后进行参数估计。

极大似然估计

极大似然估计是点估计的一种，我们定义一个似然函数来作为对真实分布的估计，取似然程度最大的一组参数作为估计值。

给定分布 $\boldsymbol{\theta})$ ，从中取一组样本 $X_1, X_2, X_3, ..., X_n$ ，则样本的 $p d f$ 为
$L(\boldsymbol{\theta};X_1, X_2, X_3, ..., X_n) = \prod_{i}^{n} p(x_i;\boldsymbol{\theta})$
其中，参数 $\boldsymbol{\theta}$ 未知， $L$ 即为似然函数。
该问题也就转化为，在观测到一组样本 $X_1, X_2, X_3, ..., X_n$ 时， $\boldsymbol{\theta}$ 取什么值会使样本出现的可能性最大，也就是求 $L$ 最大时的参数 $\boldsymbol{\theta}$ 值。
$arg\max_{\theta}\prod_{i}^{n} p(x_i;\boldsymbol{\theta})$
求积转为求和的对数，便于计算
$arg\max_{\theta}\sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})} = arg\min_{\theta} - \sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})}$

KL散度 & 交叉熵

从另一个角度来讲，如何衡量 $p_{\theta}$ 和 $p_{\hat\theta}$ 的差异呢？使用f-divergence中的KL散度来进行衡量。

KL散度定义为
$D_{KL}(p_{\theta}||p_{\hat\theta}) = \sum_i^n p_{\theta}(x_i) \log \frac{p_{\theta}(x_i)}{p_{\hat\theta}(x_i)}= \sum_i^n p_{\theta}(x_i) \log {p_{\theta}(x_i)} - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
其中，
$\sum_i^n p_{\theta}(x_i) \log {p_{\theta}}(x_i)$ 为常量。

因此，问题就转化为
$\min - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}}(x_i) = arg \min_{\boldsymbol\theta} -E_x\log{p_{\hat\theta}}(\boldsymbol{x})$
该式子也是交叉熵。

结论

根据大数定理，
$\sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})} = E_x\log{p_{\hat\theta}}(\boldsymbol{x})$

也就是在本问题中，求极大似然估计、最小化KL散度和最小化交叉熵等价。

注

大数定理

若 $X_1, X_2, X_3...$ 为独立同分布(iid)的随机变量，且 $E(X)=\mu, Var X = \sigma^2 < \infty$ ，定义 $\bar{X_n} = \sum_i^n X_i$ ，则有
$\lim_{n\to\infty}P(|\bar{X_n}-\mu| > \epsilon) = 0$

f-divergence(f-散度)

在概率论中，f散度是用来测量两个分布P和Q之间差异的函数，定义为
$D_f(P||Q) = \int f(\frac{dP}{dQ})dQ$
若P和Q可导
$D_f(P||Q) = \int f(\frac{(p(x)}{q(x)}) q(x)dx$
当 $f (t)$ 取不同的函数时，即为不同的散度，KL散度取 $t\log(t)$
$D_{KL}(P||Q) = \int p(x)\frac{(p(x)}{q(x)}dx$

熵、KL散度和交叉熵

熵: $H(X)=-\sum_i^n p(x_i)\log p(x_i)$ ，表示不确定程度，越不确定值越大
KL散度(相对熵): $D_{KL}(p_{\theta}||p_{\hat\theta}) = \sum_i^n p_{\theta}(x_i) \log {p_{\theta}(x_i)} - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
交叉熵: $\sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
从定义里可以看出，当熵为常量时，KL散度和交叉熵等价。