熵权法
概述
**熵权法(Entropy Weight Method,EWM)**是一种客观赋权的方法,原理:指标的变异程度越小,所包含的信息量也越小,其对应的权值应该越低(例如,如果对于所有样本而言,某项指标的值都相同,则该指标无参考价值,即信息量为0,权值应为0)。
如何衡量信息量大小?越不可能发生的事件信息量越多,越有可能发生的事情信息量越少。例如一个全校前几名的尖子生小王考上了清华,大家都觉得天经地义,里面没什么信息量;而如果有一天成绩很差的小张考上了清华,让大家很诧异,这里面包含的信息量就很大了。于是我们可以用概率衡量信息量。
信息量用I表示,概率用p表示,设x表示事件X可能发生的某种情况,我们可以建立I和p的函数关系
I ( x ) = − l n ( p ( x ) ) I(x)=-ln(p(x)) I(x)=−ln(p(x))
下面引入信息熵的概念,设事件X可能发生的情况为 x 1 、 x 2 、 . . . 、 x n x_1、x_2、...、x_n x1、x2、...、xn
则信息熵被定义为
H ( x ) = − ∑ i = 1 n p ( x i ) l n ( p ( x i ) ) H(x)=-\sum_{i=1}^{n}p(x_i)ln(p(x_i)) H(x)=−i=1∑np(xi)ln(p(xi))
在概率论中我们知道离散型随机变量数学期望的定义为 E ( x ) = ∑ i = 1 n x i p ( x i ) E(x)=\sum_{i=1}^{n}x_{i}p(x_{i}) E(x)=∑i=1nxip(xi),可以指定信息熵即信息量的数学期望。在热力学中,熵定义一个热力学系统的无序程度,即越无序,熵越大,信息量越小;类比到信息论中,我们可以得出以下结论:
信息熵越大,信息量越小
从数学角度来理解,可以证明,当 p ( x 1 ) = p ( x 2 ) = ⋯ = p ( x n ) = 1 n p(x_1)=p(x_2)=\cdots=p(x_n)=\frac{1}{n} p(x1)=p(x2)=⋯=p(xn)=n1时,信息熵取最大值 l n ( n ) ln(n) ln(n)。对其做出直观解释:当所有可能发生的情况等概率时,表面该过程为完全随机过程,无任何信息量。
结合熵权法的Topsis模型
Step1:对输入矩阵正向化、标准化
正向化在上一节中已详细讨论,标准化可以采用L2正则化。如果正向化后矩阵中有负数,但为了避免标准化后的结果出现负值(后续概率计算不能有负值),也可以采用 x i ′ = x i − x m i n x m a x − x m i n x_{i}'=\frac{x_{i}-x_{min}}{x_{max}-x_{min}} xi′=xmax−xminxi−xmin归一标准化。
Step2:对于每个指标(每一列),用样本值占比表示其概率
p i j = z i j ∑ i = 1 n z i j p_{ij}=\frac{z_{ij}}{\sum_{i=1}^{n}z_{ij}} pij=∑i=1nzijzij
Step3:计算每个指标的信息熵,并计算信息效用值,归一化的得到每个指标的熵权
这里每个指标的信息熵计算公式:
e j = − 1 l n ( n ) ∑ i = 1 n p i j l n ( p i j ) e_{j}=-\frac{1}{ln(n)}\sum_{i=1}^{n}p_{ij}ln(p_{ij}) ej=−ln(n)1i=1∑npijln(pij)
定义信息效用值
d j = 1 − e j d_j=1-e_j dj=1−ej
将信息效用值归一化得到指标熵权
W j = d j ∑ i = 1 m d j W_j=\frac{d_{j}}{\sum_{i=1}^{m}d_{j}} Wj=∑i=1mdjdj
信息熵越小,信息效用值越大,指标信息量越大,熵权越大