前言
文中记录了我在学习过程中,针对数据的离散程度所做的一些评价,主要涉及到方差和标准差,下面举了一个简单的例子。在统计学中,方差和标准差是用于衡量一组数据离散程度的重要指标。
一、方差
方差是每个样本值与全体样本值的平均数之差的平方值的平均数。
数学表达式为:若一组数据 x 1 , x 2 , … , x N x_1, x_2, \ldots, x_N x1,x2,…,xN,其平均数为 x ˉ \bar{x} xˉ,则方差 S 2 S^2 S2的计算公式为:
S 2 = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 S2=n1i=1∑n(xi−x)2
例如,有数据 2, 4, 6, 8, 10,其平均数为 6。则方差计算如下:
( 2 − 6 ) 2 + ( 4 − 6 ) 2 + ( 6 − 6 ) 2 + ( 8 − 6 ) 2 + ( 10 − 6 ) 2 = 16 + 4 + 0 + 4 + 16 = 40 \begin{align*} &(2 - 6)^2 + (4 - 6)^2 + (6 - 6)^2 + (8 - 6)^2 + (10 - 6)^2 \\ =& 16 + 4 + 0 + 4 + 16 \\ =& 40 \end{align*} ==(2−6)2+(4−6)2+(6−6)2+(8−6)2+(10−6)216+4+0+4+1640
方差为: S 2 = 40 5 = 8 S^2 = \frac{40}{5} = 8 S2=540=8
方差越大,表明这组数据的离散程度越大,数据分布越分散;方差越小,表明数据越集中,离散程度越小。
二、标准差
标准差则是方差的算术平方根。
其计算公式为:
S = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 S = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2} S=n1i=1∑n(xi−x)2
以上面的数据为例,标准差为: S = 8 ≈ 2.83 S = \sqrt{8} \approx 2.83 S=8≈2.83
标准差的单位与原始数据相同,这使得它可以直接用于比较不同单位的数据集的离散程度。
标准差越大,说明数据的离散程度越高,即数据波动越大;标准差越小,说明数据的离散程度越低,即数据波动越小。
总结
-
无论是方差还是标准差,均对异常值比较敏感,会使得某一均方差的值非常大,影响最终的结果,所以需要先对异常值进行处理。
-
若是判断多组数据均分布在直线的两侧,也可以根据点到直线的距离,计算标准差,判断哪一组数据更接近直线。