【统计信号处理基础——估计与检测理论】Vol1.Ch2. 最小方差无偏估计

embedded/2025/1/23 10:45:00/

系列目录
【统计信号处理基础——估计与检测理论】Vol1.Ch1. 引言


文章目录

  • 1. 无偏估计量
  • 2. 最小方差准则
  • 3. 最小方差无偏估计的存在性
  • 4. 求最小方差无偏估计量
  • 5. 扩展到矢量参数
  • 习题
    • 2.1
    • 2.2
    • 2.3
    • 2.4
    • 2.5
    • 2.6

本章寻找未知确定性参数的好的估计量。我们将注意力限制在通过平均产生真值的估计量上,这一类估计量中,目标就是要求出一个最小易变性的估计。

1. 无偏估计量

无偏估计意味着估计量的平均值为未知参数的真值。如果

E ( θ ^ ) = θ a < θ < b (1) E(\hat{\theta})=\theta\quad a<\theta<b\tag{1} E(θ^)=θa<θ<b(1)

那么估计量是无偏的,其中 ( a , b ) (a,b) (a,b)表示 θ \theta θ的可能取值范围。

无偏估计量趋向于具有对称PDF,它的中心在真值 θ \theta θ附近,但这一点并不是必须的。

在无偏估计量中,一个重要的附加条件是对未知参数的所有可能值都成立。令 θ ^ = g ( x ) \hat\theta=g(\mathbf{x}) θ^=g(x),这要求

E ( θ ^ ) = ∫ g ( x ) p ( x ; θ ) d x = θ 对于所有的 θ (2) E(\hat\theta)=\int g(\mathbf{x})p(\mathbf{x;\theta})d\mathbf{x}=\theta\quad 对于所有的\theta\tag{2} E(θ^)=g(x)p(x;θ)dx=θ对于所有的θ(2)

Law of the unconscious statistician:
The expected value of a measurable function of X X X, g ( X ) g(X) g(X), given that X X X has a probability density function f ( x ) f(x) f(x), is given by the inner product of f f f and g g g:
E [ g ( X ) ] = ∫ R g ( x ) f ( x ) d x E[g(X)]=\int_{\mathbb{R}}g(x)f(x)dx E[g(X)]=Rg(x)f(x)dx
This formula also holds in multidimensional case, when g g g is a function of several random variables, and f f f is their joint density.

估计量无偏并不意味着它是好的估计量,只是保证估计量的平均值为真值。

有偏估计量是由系统误差造成的一种估计,这种系统误差预先假设是不会出现的,不断的偏差导致估计量的准确性变差。

同一参数有多个估计 { θ ^ 1 , θ ^ 2 , ⋯ , θ ^ n } \{\hat\theta_1, \hat\theta_2, \cdots, \hat\theta_n\} {θ^1,θ^2,,θ^n}可用时,一个合理的方法是对这些估计的组合求平均,从而得出一个更好的估计,即

θ ^ = 1 n ∑ i = 1 n θ ^ i (3) \hat\theta=\frac{1}{n}\sum_{i=1}^{n}\hat\theta_i\tag{3} θ^=n1i=1nθ^i(3)

假定每个估计量是无偏的,方差相同且互不相关,即

var ( θ ^ ) = 1 n 2 ∑ i = 1 n var ( θ ^ i ) = var ( θ ^ 1 ) n (4) \text{var}(\hat\theta)=\frac{1}{n^2}\sum_{i=1}^n\text{var}(\hat\theta_i)=\frac{\text{var}(\hat\theta_1)}{n}\tag{4} var(θ^)=n21i=1nvar(θ^i)=nvar(θ^1)(4)

求平均的估计越多,方差越小, n → ∞ n\rightarrow\infin n时, θ ^ → θ \hat\theta\rightarrow\theta θ^θ

若估计量是有偏的,即 E ( θ ^ i ) = θ + b ( θ ) E(\hat\theta_i)=\theta+b(\theta) E(θ^i)=θ+b(θ),那么

E ( θ ^ ) = 1 n ∑ i = 1 n E ( θ ^ i ) = θ + b ( θ ) (5) E(\hat\theta)=\frac{1}{n}\sum_{i=1}^nE(\hat\theta_i)=\theta+b(\theta)\tag{5} E(θ^)=n1i=1nE(θ^i)=θ+b(θ)(5)

无论对多少估计量求平均,都不会收敛到真值。其中, b ( θ ) = E ( θ ^ ) − θ b(\theta)=E(\hat\theta)-\theta b(θ)=E(θ^)θ定义为估计量的偏差。

2. 最小方差准则

在寻找最佳估计量的时候,需要采用某些最佳准则。一个很自然的准则就是均方误差(mean square error, MSE)准则,均方误差定义为

mse ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] (6) \text{mse}(\hat\theta)=E[(\hat\theta-\theta)^2]\tag{6} mse(θ^)=E[(θ^θ)2](6)

它度量了估计量偏离真值的平方偏差的统计平均值。

MSE可重写为

mse ( θ ^ ) = E { [ ( θ ^ − E ( θ ^ ) ) + ( E ( θ ^ ) − θ ) ] 2 } = var ( θ ^ ) + [ E ( θ ^ ) − θ ] 2 = var ( θ ^ ) + b 2 ( θ ) (7) \begin{align} \text{mse}(\hat\theta)&= E\left\{\left[\left(\hat\theta-E(\hat\theta)\right) + \left(E(\hat\theta)-\theta\right)\right]^2\right\}\\ &=\text{var}(\hat\theta)+\left[E(\hat\theta)-\theta\right]^2\\ &=\text{var}(\hat\theta)+b^2(\theta) \end{align}\tag{7} mse(θ^)=E{[(θ^E(θ^))+(E(θ^)θ)]2}=var(θ^)+[E(θ^)θ]2=var(θ^)+b2(θ)(7)

其中,第二个等号成立是由于 E ( θ ^ ) E(\hat\theta) E(θ^) θ \theta θ都是确定值,期望等于其本身。

(7)说明,MSE由估计量的方差以及偏差引起的误差组成

下面说明MSE准则的采用导致了不可实现的估计量,这个估计量不能写成数据的唯一函数

考虑观测 x [ n ] = A + w [ n ] ( n = 0 , 1 , ⋯ , N − 1 ) x[n]=A+w[n](n=0,1,\cdots,N-1) x[n]=A+w[n](n=0,1,,N1) A A A是要估计的参数, w [ n ] w[n] w[n]是WGN。考虑一个估计量

A ˇ = a 1 N ∑ n = 0 N − 1 x [ n ] (8) \check{A}=a\frac{1}{N}\sum_{n=0}^{N-1}x[n]\tag{8} Aˇ=aN1n=0N1x[n](8)

尝试求出使MSE最小的 a a a。由于 E ( A ˇ ) = a A E(\check A)=aA E(Aˇ)=aA var ( A ˇ ) = a 2 σ 2 / N \text{var}(\check A)=a^2\sigma^2/N var(Aˇ)=a2σ2/N,由(7)可得

mse ( A ˇ ) = a 2 σ 2 N + ( a − 1 ) 2 A 2 (9) \text{mse}(\check A)=\frac{a^2\sigma^2}{N}+(a-1)^2A^2\tag{9} mse(Aˇ)=Na2σ2+(a1)2A2(9)

对其求导得

d mse ( A ˇ ) d a = 2 a σ 2 N + 2 ( a − 1 ) A 2 (10) \frac{d\text{mse}(\check A)}{da}=\frac{2a\sigma^2}{N}+2(a-1)A^2\tag{10} dadmse(Aˇ)=N2aσ2+2(a1)A2(10)

令上式为零得到最佳值为

a opt = A 2 A 2 + σ 2 / N (11) a_{\text{opt}}=\frac{A^2}{A^2+\sigma^2/N}\tag{11} aopt=A2+σ2/NA2(11)

从(11)可以看出,a的最佳值与A有关,因此估计量是不可实现的。式(7)中偏差项是 A A A的函数,因此估计量与 A A A有关。

一般情况下,任何与偏差有关的准则都将导出不可实现的估计量(偶尔也能找到可实现的MSE估计量)。除了放弃最小MSE估计,另一种方法是约束偏差为零,使得式(7)仅剩下方差项,从而求出使得方差最小的估计量。这样的估计量称为最小方差无偏(minimum variance unbiased, MVU)估计量。由(7),MVU估计量的MSE是方差

3. 最小方差无偏估计的存在性

MVU估计量是指对所有 θ \theta θ均具有最小方差的无偏估计量。MVU估计量并不总是存在的。对于不同的 θ \theta θ,方差最小的无偏估计量可能是不同的估计量。若存在MVU,为了强调对于所有 θ \theta θ方差都是最小的,也称该MVU估计量为一致最小方差无偏估计量

4. 求最小方差无偏估计量

即使MVU存在,我们也可能不能求出。有几种可能的方法:

  1. 确定Cramer-Rao下限(Cramer-Rao lower bound, CRLB),然后检查是否有某些估计量满足CRLB。
  2. 应用Rao-Blackwell-Lehmann-Scheffe (RBLS) 定理
  3. 进一步限制估计不仅是无偏的,而且还是线性的,然后在这些限制中找出最小方差估计。

具体见后续章节。

5. 扩展到矢量参数

如果 θ = [ θ 1 , θ 2 , ⋯ , θ p ] T \pmb\theta=[\theta_1,\theta_2,\cdots,\theta_p]^T θ=[θ1,θ2,,θp]T是未知参数矢量,那么一旦估计量 θ ^ = [ θ ^ 1 , θ ^ 2 , ⋯ , θ ^ p ] T \hat{\pmb\theta}=[\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_p]^T θ^=[θ^1,θ^2,,θ^p]T对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,,p满足

E ( θ ^ i ) = θ i a i < θ i < b i (12) E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i\tag{12} E(θ^i)=θiai<θi<bi(12)

我们就说它是无偏的。通过定义

E ( θ ^ ) = [ E ( θ ^ 1 ) E ( θ ^ 2 ) ⋮ E ( θ ^ p ) ] (13) E(\hat{\pmb\theta})= \left[ \begin{matrix} E(\hat\theta_1) \\ E(\hat\theta_2) \\ \vdots\\ E(\hat\theta_p) \end{matrix} \right]\tag{13} E(θ^)= E(θ^1)E(θ^2)E(θ^p) (13)

可以将无偏估计量等效地定义为

E ( θ ^ ) = θ (14) E(\hat{\pmb\theta})=\pmb\theta\tag{14} E(θ^)=θ(14)

MVU是在所有的无偏估计量中,对于 i = 1 , 2 , ⋯ , p i=1,2,\cdots,p i=1,2,,p var ( θ ^ i ) \text{var}(\hat\theta_i) var(θ^i)是最小的。

习题

2.1

估计量 σ ^ 2 \hat\sigma^2 σ^2的期望为

E ( σ ^ 2 ) = 1 N ∑ n = 0 N − 1 E ( x 2 [ n ] ) = 1 N ⋅ N ( var ( x [ n ] ) + E 2 ( x [ n ] ) ) = σ 2 E(\hat\sigma^2) =\frac{1}{N}\sum_{n=0}^{N-1}E(x^2[n]) =\frac{1}{N}\cdot N(\text{var}(x[n])+E^2(x[n]))=\sigma^2 E(σ^2)=N1n=0N1E(x2[n])=N1N(var(x[n])+E2(x[n]))=σ2

上式对于 σ 2 \sigma^2 σ2的所有取值均成立,因此估计量 σ ^ 2 \hat\sigma^2 σ^2是无偏的。

x [ n ] x[n] x[n]是独立同分布的,因此 x 2 [ n ] x^2[n] x2[n]也是独立同分布的,因此估计量 σ ^ 2 \hat\sigma^2 σ^2的方差为

var ( σ ^ 2 ) = 1 N 2 ∑ n = 0 N − 1 var ( x 2 [ n ] ) = 1 N ( E ( x 4 [ n ] ) − E 2 ( x 2 [ n ] ) ) = 2 σ 4 N \text{var}(\hat\sigma^2) =\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x^2[n]) =\frac{1}{N}\left(E(x^4[n])-E^2(x^2[n])\right)=\frac{2\sigma^4}{N} var(σ^2)=N21n=0N1var(x2[n])=N1(E(x4[n])E2(x2[n]))=N2σ4

Wikipedia Normal distribution
在这里插入图片描述

N → ∞ N\rightarrow\infin N时,估计量 σ ^ 2 \hat\sigma^2 σ^2的方差趋于0。

2.2

由均匀分布的性质, E ( x [ n ] ) = θ / 2 E(x[n])=\theta/2 E(x[n])=θ/2,因此令

θ ^ = 2 N ∑ n = 0 N − 1 x [ n ] \hat\theta=\frac{2}{N}\sum_{n=0}^{N-1}x[n] θ^=N2n=0N1x[n]

其期望为

E ( θ ^ ) = 2 N ⋅ N ⋅ θ 2 = θ , 0 < θ < ∞ E(\hat\theta)=\frac{2}{N}\cdot N\cdot\frac{\theta}{2}=\theta,\quad0<\theta<\infin E(θ^)=N2N2θ=θ,0<θ<

因此 θ ^ \hat\theta θ^ θ \theta θ的无偏估计量。

2.3

A ^ \hat A A^为独立高斯随机变量的线性组合,因此也是高斯随机变量。由例2.1, A ^ \hat A A^的期望为 A A A,方差为

var ( A ^ ) = 1 N 2 ∑ n = 0 N − 1 var ( x [ n ] ) = σ 2 N \text{var}(\hat A)=\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x[n])=\frac{\sigma^2}{N} var(A^)=N21n=0N1var(x[n])=Nσ2

因此有 A ^ ∼ N ( A , σ 2 / N ) \hat A\sim\mathscr{N}(A,\sigma^2/N) A^N(A,σ2/N)

2.4

估计量 h ^ \hat h h^的期望和方差分别为

E ( h ^ ) = 1 N ⋅ N α h = α h E(\hat h)=\frac{1}{N}\cdot N\alpha h=\alpha h E(h^)=N1Nαh=αh

var ( h ^ ) = 1 N 2 ⋅ N ⋅ 1 = 1 N \text{var}(\hat h)=\frac{1}{N^2}\cdot N\cdot 1=\frac{1}{N} var(h^)=N21N1=N1

α = 1 \alpha=1 α=1时, h ^ i \hat h_i h^i h ^ \hat h h^均为无偏估计, h ^ \hat h h^的方差更小,因此求平均的方法改善了估计量。

α = 1 / 2 \alpha=1/2 α=1/2时, h ^ i \hat h_i h^i h ^ \hat h h^均为有偏估计, h ^ \hat h h^的方差更小,因此求平均的方法使得估计结果更聚集于错误的值,由该估计量获得正确值的概率大大降低,因此此时求平均的方法使得估计量更差。

2.5

如果 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,,Xn为独立的标准正态分布,则它们的平方和服从自由度为 n n n的卡方(chi-squared)分布,即 X 1 2 + X 2 2 + ⋯ + X n 2 ∼ X n 2 X_1^2+X_2^2+\cdots+X_n^2\sim\mathcal X_n^2 X12+X22++Xn2Xn2。Chi-squared分布的PDF为

p ( x ) = 1 2 k / 2 Γ ( k / 2 ) x k / 2 − 1 e − x / 2 p(x)=\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2} p(x)=2k/2Γ(k/2)1xk/21ex/2

其中, Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ(n)=(n1)!

如果 X ∼ X v 2 X\sim\mathcal{X}_v^2 XXv2 c > 0 c>0 c>0,则 c X ∼ Γ ( k = v / 2 , θ = 2 c ) cX\sim\Gamma(k=v/2,\theta=2c) cXΓ(k=v/2,θ=2c)

Γ ( k , θ ) \Gamma(k,\theta) Γ(k,θ)表示shape parameter为 k k k,scale parameter为 θ \theta θ的Gamma分布,其PDF为

p ( x ) = 1 Γ ( k ) θ k x k − 1 e − x / θ p(x)=\frac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-x/\theta} p(x)=Γ(k)θk1xk1ex/θ

x [ 0 ] , x [ 1 ] ∼ N ( 0 , σ 2 ) x[0],x[1]\sim\mathcal{N}(0,\sigma^2) x[0],x[1]N(0,σ2),因此有 x [ 0 ] / σ , x [ 1 ] / σ ∼ N ( 0 , 1 ) x[0]/\sigma,x[1]/\sigma\sim\mathcal{N}(0,1) x[0]/σ,x[1]/σN(0,1),令其平方和为 y y y,即

y = ( x [ 0 ] σ ) 2 + ( x [ 1 ] σ ) 2 ∼ X 2 2 y=\left(\frac{x[0]}{\sigma}\right)^2+\left(\frac{x[1]}{\sigma}\right)^2\sim\mathcal{X}_2^2 y=(σx[0])2+(σx[1])2X22

因此有

σ ^ 2 = σ 2 2 y ∼ Γ ( 1 , σ 2 ) \hat\sigma^2=\frac{\sigma^2}{2}y\sim\Gamma(1,\sigma^2) σ^2=2σ2yΓ(1,σ2)

σ ^ 2 \hat\sigma^2 σ^2的PDF为

p ( σ ^ 2 ) = 1 σ 2 e − σ ^ 2 / σ 2 p(\hat\sigma^2)=\frac{1}{\sigma^2}e^{-\hat\sigma^2/\sigma^2} p(σ^2)=σ21eσ^2/σ2

显然该PDF不关于 σ 2 \sigma^2 σ2对称。

2.6


http://www.ppmy.cn/embedded/156282.html

相关文章

5G 核心网 相关概念快速入门

在我们开始阅读3GPP协议来学习5G核心网之前&#xff0c; 不妨来看看我之前整理的PPT&#xff0c;快速学习核心网相关概念&#xff0c; 以及5G转发面PFCP协议的相关核心知识。 涵盖了最精简的核心骨干内容&#xff0c;助你轻松上阵。 讲解目标 3GPP和相关协议 5G核心网架构模…

云原生作业(四)

简述mysql 主从复制原理及其工作过程&#xff0c;配置一主两从并验证。 主从复制原理 主从原理&#xff1a;MySQL 主从同步是一种数据库复制技术&#xff0c;它通过将主服务器上的数据更改复制到一个或多个从服务器&#xff0c;实现数据的自动同步。 主从同步的核心原理是将…

Linux之socket编程(上)

目录 理解IP和端口号 socket编程接口 简单UDP网络小程序实现 本期我们将开始学习Linux计算机网络的相关知识。 理解IP和端口号 IP&#xff1a;一个IP唯一标识一个网络中的主机。 端口号&#xff1a;唯一标识一个主机中的一个进程。 IP端口号我们也称作套接字。 所以我们可以得…

通过frm和ibd文件恢复mysql数据

1.提取所有的文件名并查找出以frm结尾的 dir /t /b >1.txt 2.要准备的软件 1.mysql-utilities-1.6.5-winx64.msi 2.vcredist_x64.exe(c 2013) 3.利用frm生成sql文件 mysqlfrm --serverroot:123456localhost:3306 --port3308 D:\phpstudy_pro\Extensions\MySQL5.7.26\da…

PyQt5 超详细入门级教程上篇

PyQt5 超详细入门级教程 上篇&#xff1a;1-3部分&#xff1a;PyQt5基础与常用控件 第1部分&#xff1a;初识 PyQt5 和安装 1.1 什么是 PyQt5&#xff1f; PyQt5 是 Python 的图形用户界面 (GUI) 框架&#xff0c;它基于强大的 Qt 库。Qt 是一个跨平台的 C 框架&#xff0c;用…

三层软电话技术

随着信息技术的飞速发展&#xff0c;企业通讯方式也在不断演进。三层软电话技术作为一种先进的通讯解决方案&#xff0c;正在被越来越多的企业所采纳。本文将全面解析三层软电话的定义、应用场景、工作原理、优势以及劣势&#xff0c;并对其进行拓展探讨。 一、三层软电话 三层…

Linux网络 序列化与反序列化

概念 序列化&#xff08;Serialization&#xff09;是将对象的状态信息转换为可以存储或传输的形式的过程。以下是关于序列化与反序列化的介绍&#xff1a; 序列化&#xff1a;将对象的状态信息转换为可以存储或传输的格式&#xff0c;通常是字节序列或文本格式。反序列化&am…

C++之初识模版

目录 1.关于模版的介绍 2.函数模版 2.1函数模板概念 2.2函数模板格式 2.3 函数模板的原理 2.4 函数模板的实例化 2.5模板参数的匹配原则 3.类模版 3.1类模板的定义格式 3.2 类模板的实例化 1.关于模版的介绍 C中的模板是一种通用编程工具&#xff0c;它允许程序员编…