【统计信号处理基础——估计与检测理论】Vol1.Ch2. 最小方差无偏估计

系列目录
【统计信号处理基础——估计与检测理论】Vol1.Ch1. 引言

文章目录

1. 无偏估计量
2. 最小方差准则
3. 最小方差无偏估计的存在性
4. 求最小方差无偏估计量
5. 扩展到矢量参数
习题
- 2.1
- 2.2
- 2.3
- 2.4
- 2.5
- 2.6

本章寻找未知确定性参数的好的估计量。我们将注意力限制在通过平均产生真值的估计量上，这一类估计量中，目标就是要求出一个最小易变性的估计。

1. 无偏估计量

无偏估计意味着估计量的平均值为未知参数的真值。如果

$E(\hat{\theta})=\theta\quad a<\theta<b\tag{1}$

那么估计量是无偏的，其中 $(a, b)$ 表示 $\theta$ 的可能取值范围。

无偏估计量趋向于具有对称PDF，它的中心在真值 $\theta$ 附近，但这一点并不是必须的。

在无偏估计量中，一个重要的附加条件是对未知参数的所有可能值都成立。令 $\hat\theta=g(\mathbf{x})$ ，这要求

$E(\hat\theta)=\int g(\mathbf{x})p(\mathbf{x;\theta})d\mathbf{x}=\theta\quad 对于所有的\theta\tag{2}$

Law of the unconscious statistician:
The expected value of a measurable function of $X$ , $g (X)$ , given that $X$ has a probability density function $f (x)$ , is given by the inner product of $f$ and $g$ :
$E[g(X)]=\int_{\mathbb{R}}g(x)f(x)dx$
This formula also holds in multidimensional case, when $g$ is a function of several random variables, and $f$ is their joint density.

估计量无偏并不意味着它是好的估计量，只是保证估计量的平均值为真值。

有偏估计量是由系统误差造成的一种估计，这种系统误差预先假设是不会出现的，不断的偏差导致估计量的准确性变差。

同一参数有多个估计 $\{\hat\theta_1, \hat\theta_2, \cdots, \hat\theta_n\}$ 可用时，一个合理的方法是对这些估计的组合求平均，从而得出一个更好的估计，即

$\hat\theta=\frac{1}{n}\sum_{i=1}^{n}\hat\theta_i\tag{3}$

假定每个估计量是无偏的，方差相同且互不相关，即

$\text{var}(\hat\theta)=\frac{1}{n^2}\sum_{i=1}^n\text{var}(\hat\theta_i)=\frac{\text{var}(\hat\theta_1)}{n}\tag{4}$

求平均的估计越多，方差越小， $n\rightarrow\infin$ 时， $\hat\theta\rightarrow\theta$ 。

若估计量是有偏的，即 $E(\hat\theta_i)=\theta+b(\theta)$ ，那么

$E(\hat\theta)=\frac{1}{n}\sum_{i=1}^nE(\hat\theta_i)=\theta+b(\theta)\tag{5}$

无论对多少估计量求平均，都不会收敛到真值。其中， $b(\theta)=E(\hat\theta)-\theta$ 定义为估计量的偏差。

2. 最小方差准则

在寻找最佳估计量的时候，需要采用某些最佳准则。一个很自然的准则就是均方误差（mean square error, MSE）准则，均方误差定义为

$\text{mse}(\hat\theta)=E[(\hat\theta-\theta)^2]\tag{6}$

它度量了估计量偏离真值的平方偏差的统计平均值。

MSE可重写为

$\begin{align} \text{mse}(\hat\theta)&= E\left\{\left[\left(\hat\theta-E(\hat\theta)\right) + \left(E(\hat\theta)-\theta\right)\right]^2\right\}\\ &=\text{var}(\hat\theta)+\left[E(\hat\theta)-\theta\right]^2\\ &=\text{var}(\hat\theta)+b^2(\theta) \end{align}\tag{7}$

其中，第二个等号成立是由于 $E(\hat\theta)$ 和 $\theta$ 都是确定值，期望等于其本身。

(7)说明，MSE由估计量的方差以及偏差引起的误差组成。

下面说明MSE准则的采用导致了不可实现的估计量，这个估计量不能写成数据的唯一函数。

考虑观测 $x[n]=A+w[n](n=0,1,\cdots,N-1)$ ， $A$ 是要估计的参数， $w [n]$ 是WGN。考虑一个估计量

$\check{A}=a\frac{1}{N}\sum_{n=0}^{N-1}x[n]\tag{8}$

尝试求出使MSE最小的 $a$ 。由于 $E(\check A)=aA$ ， $\text{var}(\check A)=a^2\sigma^2/N$ ，由(7)可得

$\text{mse}(\check A)=\frac{a^2\sigma^2}{N}+(a-1)^2A^2\tag{9}$

对其求导得

$\frac{d\text{mse}(\check A)}{da}=\frac{2a\sigma^2}{N}+2(a-1)A^2\tag{10}$

令上式为零得到最佳值为

$a_{\text{opt}}=\frac{A^2}{A^2+\sigma^2/N}\tag{11}$

从（11）可以看出，a的最佳值与A有关，因此估计量是不可实现的。式（7）中偏差项是 $A$ 的函数，因此估计量与 $A$ 有关。

一般情况下，任何与偏差有关的准则都将导出不可实现的估计量（偶尔也能找到可实现的MSE估计量）。除了放弃最小MSE估计，另一种方法是约束偏差为零，使得式（7）仅剩下方差项，从而求出使得方差最小的估计量。这样的估计量称为最小方差无偏（minimum variance unbiased, MVU）估计量。由（7），MVU估计量的MSE是方差。

3. 最小方差无偏估计的存在性

MVU估计量是指对所有 $\theta$ 均具有最小方差的无偏估计量。MVU估计量并不总是存在的。对于不同的 $\theta$ ，方差最小的无偏估计量可能是不同的估计量。若存在MVU，为了强调对于所有 $\theta$ 方差都是最小的，也称该MVU估计量为一致最小方差无偏估计量。

4. 求最小方差无偏估计量

即使MVU存在，我们也可能不能求出。有几种可能的方法：

确定Cramer-Rao下限（Cramer-Rao lower bound, CRLB），然后检查是否有某些估计量满足CRLB。
应用Rao-Blackwell-Lehmann-Scheffe (RBLS) 定理。
进一步限制估计不仅是无偏的，而且还是线性的，然后在这些限制中找出最小方差估计。

具体见后续章节。

5. 扩展到矢量参数

如果 $\pmb\theta=[\theta_1,\theta_2,\cdots,\theta_p]^T$ 是未知参数矢量，那么一旦估计量 $\hat{\pmb\theta}=[\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_p]^T$ 对于 $i=1,2,\cdots,p$ 满足

$E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i\tag{12}$

我们就说它是无偏的。通过定义

$E(\hat{\pmb\theta})= \left[ \begin{matrix} E(\hat\theta_1) \\ E(\hat\theta_2) \\ \vdots\\ E(\hat\theta_p) \end{matrix} \right]\tag{13}$

可以将无偏估计量等效地定义为

$E(\hat{\pmb\theta})=\pmb\theta\tag{14}$

MVU是在所有的无偏估计量中，对于 $i=1,2,\cdots,p$ ， $\text{var}(\hat\theta_i)$ 是最小的。

习题

2.1

估计量 $\hat\sigma^2$ 的期望为

$E(\hat\sigma^2) =\frac{1}{N}\sum_{n=0}^{N-1}E(x^2[n]) =\frac{1}{N}\cdot N(\text{var}(x[n])+E^2(x[n]))=\sigma^2$

上式对于 $\sigma^2$ 的所有取值均成立，因此估计量 $\hat\sigma^2$ 是无偏的。

$x [n]$ 是独立同分布的，因此 $x^2[n]$ 也是独立同分布的，因此估计量 $\hat\sigma^2$ 的方差为

$\text{var}(\hat\sigma^2) =\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x^2[n]) =\frac{1}{N}\left(E(x^4[n])-E^2(x^2[n])\right)=\frac{2\sigma^4}{N}$

Wikipedia Normal distribution

当 $N\rightarrow\infin$ 时，估计量 $\hat\sigma^2$ 的方差趋于0。

2.2

由均匀分布的性质， $E(x[n])=\theta/2$ ，因此令

$\hat\theta=\frac{2}{N}\sum_{n=0}^{N-1}x[n]$

其期望为

$E(\hat\theta)=\frac{2}{N}\cdot N\cdot\frac{\theta}{2}=\theta,\quad0<\theta<\infin$

因此 $\hat\theta$ 为 $\theta$ 的无偏估计量。

2.3

$\hat A$ 为独立高斯随机变量的线性组合，因此也是高斯随机变量。由例2.1， $\hat A$ 的期望为 $A$ ，方差为

$\text{var}(\hat A)=\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x[n])=\frac{\sigma^2}{N}$

因此有 $\hat A\sim\mathscr{N}(A,\sigma^2/N)$ 。

2.4

估计量 $\hat h$ 的期望和方差分别为

$E(\hat h)=\frac{1}{N}\cdot N\alpha h=\alpha h$

$\text{var}(\hat h)=\frac{1}{N^2}\cdot N\cdot 1=\frac{1}{N}$

当 $\alpha=1$ 时， $\hat h_i$ ， $\hat h$ 均为无偏估计， $\hat h$ 的方差更小，因此求平均的方法改善了估计量。

当 $\alpha=1/2$ 时， $\hat h_i$ ， $\hat h$ 均为有偏估计， $\hat h$ 的方差更小，因此求平均的方法使得估计结果更聚集于错误的值，由该估计量获得正确值的概率大大降低，因此此时求平均的方法使得估计量更差。

2.5

如果 $X_1,X_2,\cdots,X_n$ 为独立的标准正态分布，则它们的平方和服从自由度为 $n$ 的卡方（chi-squared）分布，即 $X_1^2+X_2^2+\cdots+X_n^2\sim\mathcal X_n^2$ 。Chi-squared分布的PDF为

$p(x)=\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}$

其中， $\Gamma(n)=(n-1)!$ 。

如果 $X\sim\mathcal{X}_v^2$ 且 $c > 0$ ，则 $cX\sim\Gamma(k=v/2,\theta=2c)$ 。

$\Gamma(k,\theta)$ 表示shape parameter为 $k$ ，scale parameter为 $\theta$ 的Gamma分布，其PDF为

$p(x)=\frac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-x/\theta}$

$x[0],x[1]\sim\mathcal{N}(0,\sigma^2)$ ，因此有 $x[0]/\sigma,x[1]/\sigma\sim\mathcal{N}(0,1)$ ，令其平方和为 $y$ ，即

$y=\left(\frac{x[0]}{\sigma}\right)^2+\left(\frac{x[1]}{\sigma}\right)^2\sim\mathcal{X}_2^2$

因此有

$\hat\sigma^2=\frac{\sigma^2}{2}y\sim\Gamma(1,\sigma^2)$

故 $\hat\sigma^2$ 的PDF为

$p(\hat\sigma^2)=\frac{1}{\sigma^2}e^{-\hat\sigma^2/\sigma^2}$

显然该PDF不关于 $\sigma^2$ 对称。