机器学习之KL散度推导

embedded/2025/3/22 11:28:04/

机器学习之KL散度推导

预备知识

熵、交叉熵、条件熵

熵 (Entropy) 这一词最初来源于热力学。1948年，克劳德·爱尔伍德·香农将热力学中的熵引入信息论，所以也被称为香农熵 (Shannon entropy)、信息熵 (information entropy)。

对于具体熵的定义和用法推荐大家自己再去理解，本篇文章着重分析和推导KL散度

这里我先给出这个熵的定义如下：

熵： $\text{Entropy(x)}= H(X) = -\sum_xp(x)log_2(x)$

条件熵：
$\begin{align*} H(\mathbf{Y}| \mathbf{X}) &= \sum_{x} p(x) H(\mathbf{Y} | \mathbf{X} = x) \\ &= - \sum_{x} p(x) \sum_{y} p(y|x) \log_2 p(y|x) \\ &= - \sum_{x} \sum_{y} p(x, y) \log_2 p(y|x) \\ &= - \sum_{x,y} p(x, y) \log_2 p(y|x) \end{align*}$
交叉熵： $\text{Cross entropy} = H(P,Q) = -\sum_iP(x_i)log_2Q(x_i)$

他们的用处是不同的，对于条件熵来说，主要是用在决策数的信息增益中，用来判断某个信息对样本集合的划分效果的影响力（好坏），当然对于连续变量，条件熵的公式不变，但变量的取值会变，如下：

在这里插入图片描述

而交叉熵则更多的用在KL散度上（据我所知😆)，本次就会用到。

KL散度推导

KL散度的理论意义在于度量两个概率分布之间的差异程度，当KL散度越大的时候，说明两者的差异程度越大；而当KL散度小的时候，则说明两者的差异程度小；如果两者相同的话，则该KL散度应该为0。

公式定义为：
$\int p(x)log\frac{p(x)}{q(x)}dx$

证明KL散度大于等于0：

将KL散度写成离散的形式为： $\sum p(x)log\frac{p(x)}{q(x)} = -\sum p(x)log\frac{q(x)}{p(x)}$

因为： $l n (x) < x - 1$

所以：令 $\frac{q(x)}{p(x)} = x$
$\begin{align*} \sum p(x)log\frac{q(x)}{p(x)} &< \sum p(x) \left(\frac{q(x)}{p(x)} - 1\right)\\ \sum p(x)log\frac{q(x)}{p(x)} &<\sum \left(q(x) - p(x)\right)\\ \sum p(x)log\frac{q(x)}{p(x)} &<\sum (q(x) - \sum p(x)\\ \sum p(x)log\frac{q(x)}{p(x)} &<0(\text{概率的和为1})\\ \end{align*}$
所以：
$\sum p(x)log\frac{p(x)}{q(x)} = -\sum p(x)log\frac{q(x)}{p(x)} > 0$
将 $log\frac{p(x)}{q(x)}$ 进行分解，可以转换为：
$\begin{align*} KL(P||Q) &= \sum p(x)log\frac{p(x)}{q(x)}\\ &=\sum p(x)log p(x) - \sum p(x)log q(x)\\ &=H(P,Q) - H(P) \end{align*}$

问题来了， $KL(P||Q)\geq 0$ ，那 $K L (Q ∣∣ P)$ 是否大于等于0？

答案是大于等于0，这是因为KL散度只是衡量数据之间的差异

例如：

$K L (P ∣∣ Q)$ 衡量 Q 相对于 P 的差异
$K L (Q ∣∣ P)$ 衡量 P 相对于 Q 的差异

设 $ P = {0.9, 0.1} $，$ Q = {0.8, 0.2} $

计算可得：
$\text{KL}(P||Q) = 0.9 \ln \frac{0.9}{0.8} + 0.1 \ln \frac{0.1}{0.2} \approx 0.011 + 0.069 = 0.08$
$\text{KL}(Q||P) = 0.8 \ln \frac{0.8}{0.9} + 0.2 \ln \frac{0.2}{0.1} \approx -0.094 + 0.139 = 0.045$