系列目录
【统计信号处理基础——估计与检测理论】Vol1.Ch1. 引言
文章目录
- 1. 无偏估计量
- 2. 最小方差准则
- 3. 最小方差无偏估计的存在性
- 4. 求最小方差无偏估计量
- 5. 扩展到矢量参数
- 习题
- 2.1
本章寻找未知确定性参数的好的估计量
。我们将注意力限制在通过平均产生真值的估计量
上,这一类估计量中,目标就是要求出一个最小易变性
的估计。
1. 无偏估计量
无偏估计意味着估计量的平均值为未知参数的真值
。如果
E ( θ ^ ) = θ a < θ < b (1) E(\hat{\theta})=\theta\quad a<\theta<b\tag{1} E(θ^)=θa<θ<b(1)
那么估计量是无偏的,其中 ( a , b ) (a,b) (a,b)表示 θ \theta θ的可能取值范围。
无偏估计量趋向于具有对称PDF,它的中心在真值 θ \theta θ附近,但这一点并不是必须的。
在无偏估计量中,一个重要的附加条件是对未知参数的所有可能值都成立
。令 θ ^ = g ( x ) \hat\theta=g(\mathbf{x}) θ^=g(x),这要求
E ( θ ^ ) = ∫ g ( x ) p ( x ; θ ) d x = θ 对于所有的 θ (2) E(\hat\theta)=\int g(\mathbf{x})p(\mathbf{x;\theta})d\mathbf{x}=\theta\quad 对于所有的\theta\tag{2} E(θ^)=∫g(x)p(x;θ)dx=θ对于所有的θ(2)
Law of the unconscious statistician:
The expected value of a measurable function of X X X, g ( X ) g(X) g(X), given that X X X has a probability density function f ( x ) f(x) f(x), is given by the inner product of f f f and g g g:
E [ g ( X ) ] = ∫ R g ( x ) f ( x ) d x E[g(X)]=\int_{\mathbb{R}}g(x)f(x)dx E[g(X)]=∫Rg(x)f(x)dx
This formula also holds in multidimensional case, when g g g is a function of several random variables, and f f f is their joint density.
估计量无偏并不意味着它是好的估计量,只是保证估计量的平均值为真值。
有偏估计量是由系统误差造成的一种估计,这种系统误差预先假设是不会出现的,不断的偏差导致估计量的准确性变差。
同一参数有多个估计 { θ ^ 1 , θ ^ 2 , ⋯ , θ ^ n } \{\hat\theta_1, \hat\theta_2, \cdots, \hat\theta_n\} {θ^1,θ^2,⋯,θ^n}可用时,一个合理的方法是对这些估计的组合求平均,从而得出一个更好的估计,即
θ ^ = 1 n ∑ i = 1 n θ ^ i (3) \hat\theta=\frac{1}{n}\sum_{i=1}^{n}\hat\theta_i\tag{3} θ^=n1i=1∑nθ^i(3)
假定每个估计量是无偏的,方差相同且互不相关,即
var ( θ ^ ) = 1 n 2 ∑ i = 1 n var ( θ ^ i ) = var ( θ ^ 1 ) n (4) \text{var}(\hat\theta)=\frac{1}{n^2}\sum_{i=1}^n\text{var}(\hat\theta_i)=\frac{\text{var}(\hat\theta_1)}{n}\tag{4} var(θ^)=n21i=1∑nvar(θ^i)=nvar(θ^1)(4)
求平均的估计越多,方差越小, n → ∞ n\rightarrow\infin n→∞时, θ ^ → θ \hat\theta\rightarrow\theta θ^→θ。
若估计量是有偏的,即 E ( θ ^ i ) = θ + b ( θ ) E(\hat\theta_i)=\theta+b(\theta) E(θ^i)=θ+b(θ),那么
E ( θ ^ ) = 1 n ∑ i = 1 n E ( θ ^ i ) = θ + b ( θ ) (5) E(\hat\theta)=\frac{1}{n}\sum_{i=1}^nE(\hat\theta_i)=\theta+b(\theta)\tag{5} E(θ^)=n1i=1∑nE(θ^i)=θ+b(θ)(5)
无论对多少估计量求平均,都不会收敛到真值。其中, b ( θ ) = E ( θ ^ ) − θ b(\theta)=E(\hat\theta)-\theta b(θ)=E(θ^)−θ定义为估计量的偏差。
2. 最小方差准则
在寻找最佳估计量的时候,需要采用某些最佳准则
。一个很自然的准则就是均方误差(mean square error, MSE)准则
,均方误差定义为
mse ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] (6) \text{mse}(\hat\theta)=E[(\hat\theta-\theta)^2]\tag{6} mse(θ^)=E[(θ^−θ)2](6)
它度量了估计量偏离真值的平方偏差的统计平均值。
MSE可重写为
mse ( θ ^ ) = E { [ ( θ ^ − E ( θ ^ ) ) + ( E ( θ ^ ) − θ ) ] 2 } = var ( θ ^ ) + [ E ( θ ^ ) − θ ] 2 = var ( θ ^ ) + b 2 ( θ ) (7) \begin{align} \text{mse}(\hat\theta)&= E\left\{\left[\left(\hat\theta-E(\hat\theta)\right) + \left(E(\hat\theta)-\theta\right)\right]^2\right\}\\ &=\text{var}(\hat\theta)+\left[E(\hat\theta)-\theta\right]^2\\ &=\text{var}(\hat\theta)+b^2(\theta) \end{align}\tag{7} mse(θ^)=E{[(θ^−E(θ^))+(E(θ^)−θ)]2}=var(θ^)+[E(θ^)−θ]2=var(θ^)+b2(θ)(7)
其中,第二个等号成立是由于 E ( θ ^ ) E(\hat\theta) E(θ^)和 θ \theta θ都是确定值,期望等于其本身。
(7)说明,MSE由估计量的方差以及偏差引起的误差组成
。
下面说明MSE准则的采用导致了不可实现的估计量,这个估计量不能写成数据的唯一函数
。
考虑观测 x [ n ] = A + w [ n ] ( n = 0 , 1 , ⋯ , N − 1 ) x[n]=A+w[n](n=0,1,\cdots,N-1) x[n]=A+w[n](n=0,1,⋯,N−1), A A A是要估计的参数, w [ n ] w[n] w[n]是WGN。考虑一个估计量
A ˇ = a 1 N ∑ n = 0 N − 1 x [ n ] (8) \check{A}=a\frac{1}{N}\sum_{n=0}^{N-1}x[n]\tag{8} Aˇ=aN1n=0∑N−1x[n](8)
尝试求出使MSE最小的 a a a。由于 E ( A ˇ ) = a A E(\check A)=aA E(Aˇ)=aA, var ( A ˇ ) = a 2 σ 2 / N \text{var}(\check A)=a^2\sigma^2/N var(Aˇ)=a2σ2/N,由(7)可得
mse ( A ˇ ) = a 2 σ 2 N + ( a − 1 ) 2 A 2 (9) \text{mse}(\check A)=\frac{a^2\sigma^2}{N}+(a-1)^2A^2\tag{9} mse(Aˇ)=Na2σ2+(a−1)2A2(9)
对其求导得
d mse ( A ˇ ) d a = 2 a σ 2 N + 2 ( a − 1 ) A 2 (10) \frac{d\text{mse}(\check A)}{da}=\frac{2a\sigma^2}{N}+2(a-1)A^2\tag{10} dadmse(Aˇ)=N2aσ2+2(a−1)A2(10)
令上式为零得到最佳值为
a opt = A 2 A 2 + σ 2 / N (11) a_{\text{opt}}=\frac{A^2}{A^2+\sigma^2/N}\tag{11} aopt=A2+σ2/NA2(11)
从(11)可以看出,a的最佳值与A有关,因此估计量是不可实现的
。式(7)中偏差项是 A A A的函数,因此估计量与 A A A有关。
一般情况下,任何与偏差有关的准则都将导出不可实现的估计量
(偶尔也能找到可实现的MSE估计量)。除了放弃最小MSE估计,另一种方法是约束偏差为零,使得式(7)仅剩下方差项,从而求出使得方差最小的估计量。这样的估计量称为最小方差无偏(minimum variance unbiased, MVU)估计量
。由(7),MVU估计量的MSE是方差
。
3. 最小方差无偏估计的存在性
MVU估计量是指对所有 θ \theta θ均具有最小方差的无偏估计量。MVU估计量并不总是存在的
。对于不同的 θ \theta θ,方差最小的无偏估计量可能是不同的估计量。若存在MVU,为了强调对于所有 θ \theta θ方差都是最小的,也称该MVU估计量为一致最小方差无偏估计量
。
4. 求最小方差无偏估计量
即使MVU存在,我们也可能不能求出。有几种可能的方法:
- 确定
Cramer-Rao下限(Cramer-Rao lower bound, CRLB)
,然后检查是否有某些估计量满足CRLB。 - 应用
Rao-Blackwell-Lehmann-Scheffe (RBLS) 定理
。 - 进一步限制估计不仅是无偏的,而且还是
线性
的,然后在这些限制中找出最小方差估计。
具体见后续章节。
5. 扩展到矢量参数
如果 θ = [ θ 1 , θ 2 , ⋯ , θ p ] T \pmb\theta=[\theta_1,\theta_2,\cdots,\theta_p]^T θ=[θ1,θ2,⋯,θp]T是未知参数矢量,那么一旦估计量 θ ^ = [ θ ^ 1 , θ ^ 2 , ⋯ , θ ^ p ] T \hat{\pmb\theta}=[\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_p]^T θ^=[θ^1,θ^2,⋯,θ^p]T对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,⋯,p满足
E ( θ ^ i ) = θ i a i < θ i < b i (12) E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i\tag{12} E(θ^i)=θiai<θi<bi(12)
我们就说它是无偏的。通过定义
E ( θ ^ ) = [ E ( θ ^ 1 ) E ( θ ^ 2 ) ⋮ E ( θ ^ p ) ] (13) E(\hat{\pmb\theta})= \left[ \begin{matrix} E(\hat\theta_1) \\ E(\hat\theta_2) \\ \vdots\\ E(\hat\theta_p) \end{matrix} \right]\tag{13} E(θ^)= E(θ^1)E(θ^2)⋮E(θ^p) (13)
可以将无偏估计量等效地定义为
E ( θ ^ ) = θ (14) E(\hat{\pmb\theta})=\pmb\theta\tag{14} E(θ^)=θ(14)
MVU是在所有的无偏估计量中,对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,⋯,p, var ( θ ^ i ) \text{var}(\hat\theta_i) var(θ^i)是最小的。