系列目录
【统计信号处理基础——估计与检测理论】Vol1.Ch1. 引言
文章目录
- 1. 无偏估计量
- 2. 最小方差准则
- 3. 最小方差无偏估计的存在性
- 4. 求最小方差无偏估计量
- 5. 扩展到矢量参数
- 习题
- 2.1
- 2.2
- 2.3
- 2.4
- 2.5
- 2.6
本章寻找未知确定性参数的好的估计量
。我们将注意力限制在通过平均产生真值的估计量
上,这一类估计量中,目标就是要求出一个最小易变性
的估计。
1. 无偏估计量
无偏估计意味着估计量的平均值为未知参数的真值
。如果
E ( θ ^ ) = θ a < θ < b (1) E(\hat{\theta})=\theta\quad a<\theta<b\tag{1} E(θ^)=θa<θ<b(1)
那么估计量是无偏的,其中 ( a , b ) (a,b) (a,b)表示 θ \theta θ的可能取值范围。
无偏估计量趋向于具有对称PDF,它的中心在真值 θ \theta θ附近,但这一点并不是必须的。
在无偏估计量中,一个重要的附加条件是对未知参数的所有可能值都成立
。令 θ ^ = g ( x ) \hat\theta=g(\mathbf{x}) θ^=g(x),这要求
E ( θ ^ ) = ∫ g ( x ) p ( x ; θ ) d x = θ 对于所有的 θ (2) E(\hat\theta)=\int g(\mathbf{x})p(\mathbf{x;\theta})d\mathbf{x}=\theta\quad 对于所有的\theta\tag{2} E(θ^)=∫g(x)p(x;θ)dx=θ对于所有的θ(2)
Law of the unconscious statistician:
The expected value of a measurable function of X X X, g ( X ) g(X) g(X), given that X X X has a probability density function f ( x ) f(x) f(x), is given by the inner product of f f f and g g g:
E [ g ( X ) ] = ∫ R g ( x ) f ( x ) d x E[g(X)]=\int_{\mathbb{R}}g(x)f(x)dx E[g(X)]=∫Rg(x)f(x)dx
This formula also holds in multidimensional case, when g g g is a function of several random variables, and f f f is their joint density.
估计量无偏并不意味着它是好的估计量,只是保证估计量的平均值为真值。
有偏估计量是由系统误差造成的一种估计,这种系统误差预先假设是不会出现的,不断的偏差导致估计量的准确性变差。
同一参数有多个估计 { θ ^ 1 , θ ^ 2 , ⋯ , θ ^ n } \{\hat\theta_1, \hat\theta_2, \cdots, \hat\theta_n\} {θ^1,θ^2,⋯,θ^n}可用时,一个合理的方法是对这些估计的组合求平均,从而得出一个更好的估计,即
θ ^ = 1 n ∑ i = 1 n θ ^ i (3) \hat\theta=\frac{1}{n}\sum_{i=1}^{n}\hat\theta_i\tag{3} θ^=n1i=1∑nθ^i(3)
假定每个估计量是无偏的,方差相同且互不相关,即
var ( θ ^ ) = 1 n 2 ∑ i = 1 n var ( θ ^ i ) = var ( θ ^ 1 ) n (4) \text{var}(\hat\theta)=\frac{1}{n^2}\sum_{i=1}^n\text{var}(\hat\theta_i)=\frac{\text{var}(\hat\theta_1)}{n}\tag{4} var(θ^)=n21i=1∑nvar(θ^i)=nvar(θ^1)(4)
求平均的估计越多,方差越小, n → ∞ n\rightarrow\infin n→∞时, θ ^ → θ \hat\theta\rightarrow\theta θ^→θ。
若估计量是有偏的,即 E ( θ ^ i ) = θ + b ( θ ) E(\hat\theta_i)=\theta+b(\theta) E(θ^i)=θ+b(θ),那么
E ( θ ^ ) = 1 n ∑ i = 1 n E ( θ ^ i ) = θ + b ( θ ) (5) E(\hat\theta)=\frac{1}{n}\sum_{i=1}^nE(\hat\theta_i)=\theta+b(\theta)\tag{5} E(θ^)=n1i=1∑nE(θ^i)=θ+b(θ)(5)
无论对多少估计量求平均,都不会收敛到真值。其中, b ( θ ) = E ( θ ^ ) − θ b(\theta)=E(\hat\theta)-\theta b(θ)=E(θ^)−θ定义为估计量的偏差。
2. 最小方差准则
在寻找最佳估计量的时候,需要采用某些最佳准则
。一个很自然的准则就是均方误差(mean square error, MSE)准则
,均方误差定义为
mse ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] (6) \text{mse}(\hat\theta)=E[(\hat\theta-\theta)^2]\tag{6} mse(θ^)=E[(θ^−θ)2](6)
它度量了估计量偏离真值的平方偏差的统计平均值。
MSE可重写为
mse ( θ ^ ) = E { [ ( θ ^ − E ( θ ^ ) ) + ( E ( θ ^ ) − θ ) ] 2 } = var ( θ ^ ) + [ E ( θ ^ ) − θ ] 2 = var ( θ ^ ) + b 2 ( θ ) (7) \begin{align} \text{mse}(\hat\theta)&= E\left\{\left[\left(\hat\theta-E(\hat\theta)\right) + \left(E(\hat\theta)-\theta\right)\right]^2\right\}\\ &=\text{var}(\hat\theta)+\left[E(\hat\theta)-\theta\right]^2\\ &=\text{var}(\hat\theta)+b^2(\theta) \end{align}\tag{7} mse(θ^)=E{[(θ^−E(θ^))+(E(θ^)−θ)]2}=var(θ^)+[E(θ^)−θ]2=var(θ^)+b2(θ)(7)
其中,第二个等号成立是由于 E ( θ ^ ) E(\hat\theta) E(θ^)和 θ \theta θ都是确定值,期望等于其本身。
(7)说明,MSE由估计量的方差以及偏差引起的误差组成
。
下面说明MSE准则的采用导致了不可实现的估计量,这个估计量不能写成数据的唯一函数
。
考虑观测 x [ n ] = A + w [ n ] ( n = 0 , 1 , ⋯ , N − 1 ) x[n]=A+w[n](n=0,1,\cdots,N-1) x[n]=A+w[n](n=0,1,⋯,N−1), A A A是要估计的参数, w [ n ] w[n] w[n]是WGN。考虑一个估计量
A ˇ = a 1 N ∑ n = 0 N − 1 x [ n ] (8) \check{A}=a\frac{1}{N}\sum_{n=0}^{N-1}x[n]\tag{8} Aˇ=aN1n=0∑N−1x[n](8)
尝试求出使MSE最小的 a a a。由于 E ( A ˇ ) = a A E(\check A)=aA E(Aˇ)=aA, var ( A ˇ ) = a 2 σ 2 / N \text{var}(\check A)=a^2\sigma^2/N var(Aˇ)=a2σ2/N,由(7)可得
mse ( A ˇ ) = a 2 σ 2 N + ( a − 1 ) 2 A 2 (9) \text{mse}(\check A)=\frac{a^2\sigma^2}{N}+(a-1)^2A^2\tag{9} mse(Aˇ)=Na2σ2+(a−1)2A2(9)
对其求导得
d mse ( A ˇ ) d a = 2 a σ 2 N + 2 ( a − 1 ) A 2 (10) \frac{d\text{mse}(\check A)}{da}=\frac{2a\sigma^2}{N}+2(a-1)A^2\tag{10} dadmse(Aˇ)=N2aσ2+2(a−1)A2(10)
令上式为零得到最佳值为
a opt = A 2 A 2 + σ 2 / N (11) a_{\text{opt}}=\frac{A^2}{A^2+\sigma^2/N}\tag{11} aopt=A2+σ2/NA2(11)
从(11)可以看出,a的最佳值与A有关,因此估计量是不可实现的
。式(7)中偏差项是 A A A的函数,因此估计量与 A A A有关。
一般情况下,任何与偏差有关的准则都将导出不可实现的估计量
(偶尔也能找到可实现的MSE估计量)。除了放弃最小MSE估计,另一种方法是约束偏差为零,使得式(7)仅剩下方差项,从而求出使得方差最小的估计量。这样的估计量称为最小方差无偏(minimum variance unbiased, MVU)估计量
。由(7),MVU估计量的MSE是方差
。
3. 最小方差无偏估计的存在性
MVU估计量是指对所有 θ \theta θ均具有最小方差的无偏估计量。MVU估计量并不总是存在的
。对于不同的 θ \theta θ,方差最小的无偏估计量可能是不同的估计量。若存在MVU,为了强调对于所有 θ \theta θ方差都是最小的,也称该MVU估计量为一致最小方差无偏估计量
。
4. 求最小方差无偏估计量
即使MVU存在,我们也可能不能求出。有几种可能的方法:
- 确定
Cramer-Rao下限(Cramer-Rao lower bound, CRLB)
,然后检查是否有某些估计量满足CRLB。 - 应用
Rao-Blackwell-Lehmann-Scheffe (RBLS) 定理
。 - 进一步限制估计不仅是无偏的,而且还是
线性
的,然后在这些限制中找出最小方差估计。
具体见后续章节。
5. 扩展到矢量参数
如果 θ = [ θ 1 , θ 2 , ⋯ , θ p ] T \pmb\theta=[\theta_1,\theta_2,\cdots,\theta_p]^T θ=[θ1,θ2,⋯,θp]T是未知参数矢量,那么一旦估计量 θ ^ = [ θ ^ 1 , θ ^ 2 , ⋯ , θ ^ p ] T \hat{\pmb\theta}=[\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_p]^T θ^=[θ^1,θ^2,⋯,θ^p]T对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,⋯,p满足
E ( θ ^ i ) = θ i a i < θ i < b i (12) E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i\tag{12} E(θ^i)=θiai<θi<bi(12)
我们就说它是无偏的。通过定义
E ( θ ^ ) = [ E ( θ ^ 1 ) E ( θ ^ 2 ) ⋮ E ( θ ^ p ) ] (13) E(\hat{\pmb\theta})= \left[ \begin{matrix} E(\hat\theta_1) \\ E(\hat\theta_2) \\ \vdots\\ E(\hat\theta_p) \end{matrix} \right]\tag{13} E(θ^)= E(θ^1)E(θ^2)⋮E(θ^p) (13)
可以将无偏估计量等效地定义为
E ( θ ^ ) = θ (14) E(\hat{\pmb\theta})=\pmb\theta\tag{14} E(θ^)=θ(14)
MVU是在所有的无偏估计量中,对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,⋯,p, var ( θ ^ i ) \text{var}(\hat\theta_i) var(θ^i)是最小的。
习题
2.1
估计量 σ ^ 2 \hat\sigma^2 σ^2的期望为
E ( σ ^ 2 ) = 1 N ∑ n = 0 N − 1 E ( x 2 [ n ] ) = 1 N ⋅ N ( var ( x [ n ] ) + E 2 ( x [ n ] ) ) = σ 2 E(\hat\sigma^2) =\frac{1}{N}\sum_{n=0}^{N-1}E(x^2[n]) =\frac{1}{N}\cdot N(\text{var}(x[n])+E^2(x[n]))=\sigma^2 E(σ^2)=N1n=0∑N−1E(x2[n])=N1⋅N(var(x[n])+E2(x[n]))=σ2
上式对于 σ 2 \sigma^2 σ2的所有取值均成立,因此估计量 σ ^ 2 \hat\sigma^2 σ^2是无偏的。
x [ n ] x[n] x[n]是独立同分布的,因此 x 2 [ n ] x^2[n] x2[n]也是独立同分布的,因此估计量 σ ^ 2 \hat\sigma^2 σ^2的方差为
var ( σ ^ 2 ) = 1 N 2 ∑ n = 0 N − 1 var ( x 2 [ n ] ) = 1 N ( E ( x 4 [ n ] ) − E 2 ( x 2 [ n ] ) ) = 2 σ 4 N \text{var}(\hat\sigma^2) =\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x^2[n]) =\frac{1}{N}\left(E(x^4[n])-E^2(x^2[n])\right)=\frac{2\sigma^4}{N} var(σ^2)=N21n=0∑N−1var(x2[n])=N1(E(x4[n])−E2(x2[n]))=N2σ4
Wikipedia Normal distribution
当 N → ∞ N\rightarrow\infin N→∞时,估计量 σ ^ 2 \hat\sigma^2 σ^2的方差趋于0。
2.2
由均匀分布的性质, E ( x [ n ] ) = θ / 2 E(x[n])=\theta/2 E(x[n])=θ/2,因此令
θ ^ = 2 N ∑ n = 0 N − 1 x [ n ] \hat\theta=\frac{2}{N}\sum_{n=0}^{N-1}x[n] θ^=N2n=0∑N−1x[n]
其期望为
E ( θ ^ ) = 2 N ⋅ N ⋅ θ 2 = θ , 0 < θ < ∞ E(\hat\theta)=\frac{2}{N}\cdot N\cdot\frac{\theta}{2}=\theta,\quad0<\theta<\infin E(θ^)=N2⋅N⋅2θ=θ,0<θ<∞
因此 θ ^ \hat\theta θ^为 θ \theta θ的无偏估计量。
2.3
A ^ \hat A A^为独立高斯随机变量的线性组合,因此也是高斯随机变量。由例2.1, A ^ \hat A A^的期望为 A A A,方差为
var ( A ^ ) = 1 N 2 ∑ n = 0 N − 1 var ( x [ n ] ) = σ 2 N \text{var}(\hat A)=\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x[n])=\frac{\sigma^2}{N} var(A^)=N21n=0∑N−1var(x[n])=Nσ2
因此有 A ^ ∼ N ( A , σ 2 / N ) \hat A\sim\mathscr{N}(A,\sigma^2/N) A^∼N(A,σ2/N)。
2.4
估计量 h ^ \hat h h^的期望和方差分别为
E ( h ^ ) = 1 N ⋅ N α h = α h E(\hat h)=\frac{1}{N}\cdot N\alpha h=\alpha h E(h^)=N1⋅Nαh=αh
var ( h ^ ) = 1 N 2 ⋅ N ⋅ 1 = 1 N \text{var}(\hat h)=\frac{1}{N^2}\cdot N\cdot 1=\frac{1}{N} var(h^)=N21⋅N⋅1=N1
当 α = 1 \alpha=1 α=1时, h ^ i \hat h_i h^i, h ^ \hat h h^均为无偏估计, h ^ \hat h h^的方差更小,因此求平均的方法改善了估计量。
当 α = 1 / 2 \alpha=1/2 α=1/2时, h ^ i \hat h_i h^i, h ^ \hat h h^均为有偏估计, h ^ \hat h h^的方差更小,因此求平均的方法使得估计结果更聚集于错误的值,由该估计量获得正确值的概率大大降低,因此此时求平均的方法使得估计量更差。
2.5
如果 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn为独立的标准正态分布,则它们的平方和服从自由度为 n n n的卡方(chi-squared)分布,即 X 1 2 + X 2 2 + ⋯ + X n 2 ∼ X n 2 X_1^2+X_2^2+\cdots+X_n^2\sim\mathcal X_n^2 X12+X22+⋯+Xn2∼Xn2。Chi-squared分布的PDF为
p ( x ) = 1 2 k / 2 Γ ( k / 2 ) x k / 2 − 1 e − x / 2 p(x)=\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2} p(x)=2k/2Γ(k/2)1xk/2−1e−x/2
其中, Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ(n)=(n−1)!。
如果 X ∼ X v 2 X\sim\mathcal{X}_v^2 X∼Xv2且 c > 0 c>0 c>0,则 c X ∼ Γ ( k = v / 2 , θ = 2 c ) cX\sim\Gamma(k=v/2,\theta=2c) cX∼Γ(k=v/2,θ=2c)。
Γ ( k , θ ) \Gamma(k,\theta) Γ(k,θ)表示shape parameter为 k k k,scale parameter为 θ \theta θ的Gamma分布,其PDF为
p ( x ) = 1 Γ ( k ) θ k x k − 1 e − x / θ p(x)=\frac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-x/\theta} p(x)=Γ(k)θk1xk−1e−x/θ
x [ 0 ] , x [ 1 ] ∼ N ( 0 , σ 2 ) x[0],x[1]\sim\mathcal{N}(0,\sigma^2) x[0],x[1]∼N(0,σ2),因此有 x [ 0 ] / σ , x [ 1 ] / σ ∼ N ( 0 , 1 ) x[0]/\sigma,x[1]/\sigma\sim\mathcal{N}(0,1) x[0]/σ,x[1]/σ∼N(0,1),令其平方和为 y y y,即
y = ( x [ 0 ] σ ) 2 + ( x [ 1 ] σ ) 2 ∼ X 2 2 y=\left(\frac{x[0]}{\sigma}\right)^2+\left(\frac{x[1]}{\sigma}\right)^2\sim\mathcal{X}_2^2 y=(σx[0])2+(σx[1])2∼X22
因此有
σ ^ 2 = σ 2 2 y ∼ Γ ( 1 , σ 2 ) \hat\sigma^2=\frac{\sigma^2}{2}y\sim\Gamma(1,\sigma^2) σ^2=2σ2y∼Γ(1,σ2)
故 σ ^ 2 \hat\sigma^2 σ^2的PDF为
p ( σ ^ 2 ) = 1 σ 2 e − σ ^ 2 / σ 2 p(\hat\sigma^2)=\frac{1}{\sigma^2}e^{-\hat\sigma^2/\sigma^2} p(σ^2)=σ21e−σ^2/σ2
显然该PDF不关于 σ 2 \sigma^2 σ2对称。