数据求均值背后的原理

1. 背景

对采集数据求均值是一种常见简单有效的数据处理手段，比如用直尺去测量物体的长度一般情况会多次测量然后计算平均值然后将平均值作为物体的长度，又如我们需要测量某电源的电压也会采取类似的方法，可以说对数据求均值在我们工作生活中无处不在，但为什么求均值后的测量值会更加接近真实值呢？

2. y=c模型

当你使用直尺去多次测量某物体的长度，然后多次测量后会去计算多次测量后平均值并这个最终的值作为物体的长度；从结果这来说这个这个均值会更加稳定更加接近真实长度，但我们要从原因上解释均值的合理性就需要从测量谈，首先对物体测量结果如下：

$x_1,x_2,x_3,\cdot \cdot \cdot, x_i$

在现实生活中由于噪声的存在，无论我们使用多么紧密的测量设备都无法测量得到物体真实的长度，所以测量值与真实值存在以下关系(ei为测量误差):

$x_1=x+e_1,x_2=x+e_2,x_3=x+e_3,\cdot \cdot \cdot ,x_i=x+e_i$

那么测量误差如下（为了防止误差正负低效，这里对其计算了绝对值）：

$e_1=|x_1-x|,e_2=|x_2-x|,···,,e_i=|x_i-x|,\cdot \cdot \cdot ,e_m=|x_m-x|$

在最小二乘的观点中，上述所有的误差加起来最小（误差和最小）时x取值就是最靠近真实值，误差和如下：

$e=\sum_{n=1}^m |e_i|=\sum_{n=1}^m |x_i-x|$

由于绝对值函数不可导无法使用微积分工具来计算最值，这里将绝对值换算成平方运算来简化计算过程方便寻找到最优解:

$e=\sum_{n=1}^m (x_i-x)^2$

对其误差和求导：

$e'=\sum_{n=1}^m 2(x_i-x)$

这个导数为0的即为误差和最小值点：

$e'=\sum_{n=1}^m 2x-2x_i=0\\ \ \\ \sum_{n=1}^m 2x =\sum_{n=1}^m 2x_i\\ \ \\ x=\frac{\sum_{n=1}^m x_i}{m}\\ \ \\$

最终让误差和最小的x就是测量均值，均值其实就是一种特殊的最小二乘估计值。

3. y=kx+b模型

更加常见的一种情况是，测量值之间是一种线性关系，比如要测量电阻会通过测量多组电压和电流计算得到。

对于某种测量的结果如下：

$(x_1,y_1),(x_2,y_2),\cdot \cdot \cdot ,(x_i,y_i),\cdot \cdot \cdot,(x_m,y_m)$

测量误差如下：

$e_1=kx_1+b-y1\\ e_2=kx_2+b-y_2\\ ···\\ e_i=kx_i+b-y_i\\ ···\\ e_m=kx_m+b-y_m$

误差和：

$e=\sum_{n=1}^m (e_i)^2\\ e=\sum_{n=1}^m (kx_i+b-y_i)^2$

与上述不同这里e是关于k和b的二元函数，需求寻找一个k和b使得误差和e取值最小，这里分别对k和b求偏导来寻找最值：

$\frac{\partial e}{\partial k} = 2\sum_{n=1}^m x_i(kx_i+b-y_i)=0 \\ \ \\ \frac{\partial e}{\partial b}=\sum_{n=1}^m (kx_i+b-y_i)=0$

上式就是关于a、b的一元二次方程组，继续化简为：

$a \sum_{i=1}^{n} x_i + nb = \sum_{i=1}^{n} y_i \\ \ \\ a \sum_{i=1}^{n} x_i^2 + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} x_i y_i$

在二维的几何意义上，这是两条直线方程，只要这两条直线不平行就存在交点方程组有解，在有解情况下，a与b的代数解如下：

$a = \frac{n \sum_{i=1}^{n} x_i y_i - \left( \sum_{i=1}^{n} x_i \right) \left( \sum_{i=1}^{n} y_i \right)}{n \sum_{i=1}^{n} x_i^2 - \left( \sum_{i=1}^{n} x_i \right)^2}\\ \ \\ b = \frac{\sum_{i=1}^{n} y_i - a \sum_{i=1}^{n} x_i}{n}$

上述虽然是一个二元一次方程组，方程组解的结构相对简单，但表达式过于复杂，虽然计算繁杂但只有简单的四则运算（更一般情况会使用矩阵来表示该方程组的解）。

4. 为什么要使用误差平方和最小的模型

上述使用最小二乘计算最佳估计值都基于一个假设前提假设：估计值距离所有测量值误差和最小时估计值最接近真实值，为什么要误差和越小就越接近真实值呢？这似乎是一个“显然”成立但又有些不能被理解得到条件。针对上述长度测量的例子中，我们假定真实长度为x，每次测量误差为ei，真实值与测量值存在以下关系： $x_1=x+e_1,x_2=x+e_2,x_3=x+e_3,\cdot \cdot\cdot,x_i==x+e_i$

这里面的测量误差（ $e_1,e_2,e_3,\cdot\cdot\cdot,e_i$ ）在数据量足够多相对独立条件下应该符合正态分布，而且这个正态分布的均值应该为零，这也是工程上所说的白噪声。基于误差的统计特性，长度的均值：

$\hat{x}=\frac{(x_1+x2+···+x_i)}{i}\\ \hat{x}=\frac{(x+x+···+x)+(e_1+e_2+···+e_i)}{i}\\\ \hat{x}=\frac{x*i}{i}+\frac{e_1+e_2+···+e_i}{i}\\ \hat{x}=x+\frac{e_1+e_2+···+e_i}{i}$