文章目录
一、自信息 I(X)
自信息(Self-information) 是由香农提出的,用来衡量单一事件发生时所包含的信息量的多寡,单位是bit或nats。
就是说,自信息表示某一事件发生时所带来的信息量的多少,当事件发生的概率越大,其自信息就越小,反之亦然。
数学定义
自信息定义为时间发生的概率的负对数。 具体来说,设事件 x i x_i xi 发生的概率为 p ( x i ) p(x_i) p(xi),则该事件的自信息量 I ( x i ) I(x_i) I(xi) 定义为:
I ( x i ) = − log 2 p ( x i ) I(x_i) = - \log_2 p(x_i) I(xi)=−log2p(xi)
函数对应的图像表示如下图所示,其中 p p p 表示事件发生的概率。
自信息的含义、性质和应用
- 小概率事件提供更多的信息:小概率事件发生时,提供的信息量较大;大概率事件发生时,提供的信息量较小。
- 不确定性与信息量:自信息表示事件发生前的不确定性和事件发生后提供的信息量。小概率事件发生前的不确定性大,发生后提供的信息量大;大概率事件则相反。
- 自信息与互信息的关系:互信息是已知一个事件后另一个事件的不确定性减少的量。互信息可以表示为两个事件的自信息之差。
二、信息熵:衡量系统的混乱程度
自信息描述的是随机变量的某个事件发生所带来的的信息量,而信息熵通常用来描述整个随机分布所带来的信息量,更具有统计特性。
信息熵也叫香农熵,代表一个系统中信息量的总和。信息量总和越大,表明这个系统的不确定性就越大。
信息熵 H(X)
信息熵定义为对所有可能事件所带来的信息量求期望。
一个随机变量 X X X 的熵 H ( x ) H(x) H(x) 定义为:
H ( X ) = E x ∼ p [ I ( x ) ] = − E x ∼ p [ log p ( x ) ] = − ∑ x p ( x ) log p ( x ) = − ∫ x p ( x ) log p ( x ) d x \begin{aligned} H(X) &= E_{x \sim p}[I(x)]=-E_{x \sim p}[\log p(x)]\\ &=-\sum_x p(x)\log p(x)\\ &=-\int_x p(x) \log p(x)dx \end{aligned} H(X)=Ex∼p[I(x)]=−Ex∼p[logp(x)]=−x∑p(x)logp(x)=−∫xp(x)logp(x)dx
信息熵是各项自信息的累加值。在同样的定义域内,熵的关系为脉冲分布信息熵<高斯分布信息熵<均匀分布信息熵。可以通过数学证明,当随机变量分布为均匀分布时即状态数最多时,熵最大。熵代表了随机分布的混乱程度。
联合熵 H(X,Y)
推广至多维随机变量的联合分布,对于服从联合分布为 p ( x , y ) p(x,y) p(x,y) 的一对离散随机变量 ( X , Y ) (X,Y) (X,Y),其联合信息熵为:
H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) H(X,Y)=-\sum_{x,y} p(x,y) \log p(x,y) H(X,Y)=−x,y∑p(x,y)logp(x,y)
三、条件熵H(Y|X) = 联合熵H(X,Y) - 信息熵H(X)
条件熵的定义为:在 X X X 给定条件下, Y Y Y 的条件概率分布的熵对 X X X 的数学期望。
H ( Y ∣ X ) = E x ∼ p [ H ( Y ∣ X = x ) ] = ∑ x p ( x ) H ( Y ∣ X = x ) = − ∑ x p ( x ) ∑ y p ( y ∣ x ) log p ( y ∣ x ) = − ∑ x ∑ y p ( x , y ) log ( y ∣ x ) = − ∑ x , y p ( x , y ) log p ( y ∣ x ) \begin{aligned} H(Y|X)&=E_{x \sim p}[H(Y|X=x)]\\ &=\sum_{x} p(x) H(Y|X=x)\\ &=-\sum_x p(x) \sum_y p(y|x) \log p(y|x)\\ &=-\sum_x \sum_y p(x,y) \log(y|x)\\ &=-\sum_{x,y} p(x,y) \log p(y|x) \end{aligned} H(Y∣X)=Ex∼p[H(Y∣X=x)]=x∑p(x)H(Y∣X=x)=−x∑p(x)y∑p(y∣x)logp(y∣x)=−x∑y∑p(x,y)log(y∣x)=−x,y∑p(x,y)logp(y∣x)
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X) 等于联合熵 H ( X , Y ) H(X,Y) H(X,Y) 捡去信息熵 H ( X ) H(X) H(X),即 H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X,Y) - H(X) H(Y∣X)=H(X,Y)−H(X)。
证明如下:
H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) = − ∑ x , y p ( x , y ) log ( p ( y ∣ x ) p ( x ) ) = − ∑ x , y p ( x , y ) log p ( y ∣ x ) − ∑ x , y p ( x , y ) log p ( x ) = H ( Y ∣ X ) − ∑ x , y p ( x , y ) log p ( x ) = H ( Y ∣ X ) − ∑ x ∑ y p ( x , y ) log p ( x ) = H ( Y ∣ X ) − ∑ x log p ( x ) ∑ y p ( x , y ) = H ( Y ∣ X ) − ∑ x p ( x ) log p ( x ) = H ( Y ∣ X ) − H ( X ) \begin{aligned} H(X,Y) &= -\sum_{x,y} p(x,y) \log p(x,y)\\ &=-\sum_{x,y} p(x,y) \log (p(y|x)p(x))\\ &=-\sum_{x,y}p(x,y) \log p(y|x)-\sum_{x,y} p(x,y) \log p(x)\\ &=H(Y|X) - \sum_{x,y} p(x,y) \log p(x)\\ &=H(Y|X) - \sum_x \sum_y p(x,y) \log p(x)\\ &=H(Y|X) - \sum_x \log p(x) \sum_y p(x,y)\\ &=H(Y|X) - \sum_x p(x) \log p(x)\\ &=H(Y|X) - H(X) \end{aligned} H(X,Y)=−x,y∑p(x,y)logp(x,y)=−x,y∑p(x,y)log(p(y∣x)p(x))=−x,y∑p(x,y)logp(y∣x)−x,y∑p(x,y)logp(x)=H(Y∣X)−x,y∑p(x,y)logp(x)=H(Y∣X)−x∑y∑p(x,y)logp(x)=H(Y∣X)−x∑logp(x)y∑p(x,y)=H(Y∣X)−x∑p(x)logp(x)=H(Y∣X)−H(X)
四、互信息 I(X,Y)
互信息定义为一个随机变量由于已知另一个随机变量而减少的不确定性,或者说从贝叶斯角度考虑,由于新的观测数据y到来而导致x分布的不确定性下降程度。
假设两个离散随机变量 X X X 和 Y Y Y,他们的联合概率分布函数为 p ( x , y ) p(x,y) p(x,y),边缘概率分布函数分别为 p ( x ) p(x) p(x) 和 p ( y ) p(y) p(y)。那么互信息 I ( X , Y ) I(X,Y) I(X,Y) 为联合分布 p ( x , y ) p(x,y) p(x,y) 和 p ( x ) p ( y ) p(x)p(y) p(x)p(y) 之间的相对熵,即:
I ( X , Y ) = ∑ x ∑ y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) I(X,Y) = \sum_x \sum_y p(x,y)\log \frac{p(x,y)}{p(x)p(y)} I(X,Y)=x∑y∑p(x,y)logp(x)p(y)p(x,y)
在连续随机变量的情形下,求和被替换成二重定积分:
I ( X , Y ) = ∫ Y ∫ X p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) d x d y I(X,Y) = \int_Y \int_X p(x,y) \log(\frac{p(x,y)}{p(x)p(y)})dx dy I(X,Y)=∫Y∫Xp(x,y)log(p(x)p(y)p(x,y))dxdy
其中, p ( x , y ) p(x,y) p(x,y) 为 X X X 和 Y Y Y 的联合概率密度函数,而 p ( x ) p(x) p(x) 和 p ( y ) p(y) p(y) 分别是 X X X 和 Y Y Y 的边缘概率密度函数。
经过推导,互信息可以等价的表示成:
I ( X , Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) = H ( X , Y ) − H ( X ∣ Y ) − H ( Y ∣ X ) \begin{aligned} I(X,Y) &= H(X) - H(X|Y)\\ &= H(Y) - H(Y|X) \\ &= H(X) + H(Y) - H(X,Y)\\ &= H(X,Y)-H(X|Y) - H(Y|X) \end{aligned} I(X,Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)=H(X,Y)−H(X∣Y)−H(Y∣X)
直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)
此外,互信息是非负的,而且是对称的(即 I ( X , Y ) = I ( Y , X ) I(X,Y) = I(Y,X) I(X,Y)=I(Y,X))。
五、总结
对于随机变量 X X X 和 Y Y Y ,他们的熵、联合熵、条件熵以及互信息之间的关系如图所示。