模式识别-Ch3-贝叶斯估计

devtools/2025/1/13 2:40:26/

贝叶斯估计

贝叶斯估计是概率密度估计中另一类主要的参数估计方法。其结果在很多情况下与最大似然法十分相似,但是,两种方法对问题的处理视角是不一样的。

贝叶斯估计最大似然估计
将待估计的参数视为一个随机变量,其中的一个核心任务是根据观测数据对参数的分布进行估计。将待估计的参数当作未知但固定的变量,其任务是根据观测数据估计其在参数空间中的取值
p ( x ∣ D ) ∼ N ( μ n , σ 2 + σ n 2 ) μ n = n σ 0 2 σ 0 2 + σ 2 μ ^ n + σ 2 σ 0 2 + σ 2 μ 0 σ n 2 = σ 0 2 σ 2 n σ 0 2 + σ 2 p(x\vert D)\sim N(\mu_{n},\sigma^{2}+\sigma_{n}^{2})\\\mu_{n}=\frac{n\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\hat{\mu}_{n}+\frac{\sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}}\mu_{0}\\\sigma_{n}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} p(xD)N(μn,σ2+σn2)μn=σ02+σ2nσ02μ^n+σ02+σ2σ2μ0σn2=nσ02+σ2σ02σ2$p(x\vert D)\sim N(\hat{\mu}{n},\sigma^{2})\\hat{\mu}{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i}\$

上面公式给出的是一维下估计。

基本方法

参数先验分布 p ( θ ) p(\theta) p(θ):是在没有任何数据时,有关参数 θ \theta θ的分布情况(根据领域知识或经验)

给定样本集 D = { x 1 , x 2 , ⋯ , x n } D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} D={x1,x2,,xn},数据独立采样,且服从数据分布:(数据是互相独立的)
p ( D ∣ θ ) = p ( x 1 , x 2 , ⋯ , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(D|\theta)=p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta) p(Dθ)=p(x1,x2,,xnθ)=i=1np(xiθ)
利用贝叶斯公式计算参数的后验分布 p ( θ ∣ D ) p(\theta\vert D) p(θD) p ( θ ∣ D ) p(\theta\vert D) p(θD)中融合了先验知识和数据信息。
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)} p(θD)=p(D)p(Dθ)p(θ)
p ( D ) p(D) p(D)是与参数无关的归一化因子,根据全概率公式(连续):
p ( D ) = ∑ θ p ( D ∣ θ ) p ( θ ) p ( D ) = ∫ θ p ( D ∣ θ ) p ( θ ) d θ p ( D ∣ θ ) ⇒ p ( x ∣ μ , σ ) = 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) p(D)=\sum_{\theta}p(D|\theta)p(\theta)\\ p(D)=\int_{\theta}p(D|\theta)p(\theta)d\theta\\ p(D|\theta)\Rightarrow p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(x - \mu)^2}{\sigma^2}\right) p(D)=θp(Dθ)p(θ)p(D)=θp(Dθ)p(θ)dθp(Dθ)p(xμ,σ)=2π σ1exp(21σ2(xμ)2)
对于一般情况,计算 p ( D ) p(D) p(D)十分困难

可得贝叶斯参数估计中的后验概率密度函数:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ θ p ( D ∣ θ ) p ( θ ) d θ = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) α = 1 ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta}p(D|\theta)p(\theta)d\theta}=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)\\ \alpha=\frac 1{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta} p(θD)=θp(Dθ)p(θ)dθp(Dθ)p(θ)=θi=1np(xiθ)p(θ)dθi=1np(xiθ)p(θ)=αi=1np(xiθ)p(θ)α=θi=1np(xiθ)p(θ)dθ1

Q: 如何使用 p ( θ ∣ D ) p(\theta\vert D) p(θD)获得关于数据的分布?

得到 p ( θ ∣ D ) p(\theta\vert D) p(θD)只是获得了关于参数 θ \theta θ的后验分布,并没有像最大似然估计那样获得参数 θ \theta θ的具体取值。

方法1方法2方法3
p ( θ ∣ D ) p(\theta\vert D) p(θD)采样,计算平均值最大后验估计(Maximum A Posteriori estimation, MAP)后验数据分布(完整的贝叶斯方法)
θ ^ = 1 M ∑ i = 1 M θ i , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯ , M \hat{\theta}=\frac{1}{M}\sum_{i = 1}^{M}\theta_i,\theta_i\sim p(\theta\vert D),i = 1,\cdots,M θ^=M1i=1Mθi,θip(θD),i=1,,MKaTeX parse error: {align} can be used only in display mode. p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(xμ,Σ)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))

PR/ML方法中普遍使用的L2正则,等价于假设参数服从 N ( 0 , I ) N(0,I) N(0,I)

后验数据分布

最终目的:根据 D D D中的样本来估计概率密度函数 p ( x ∣ D ) p(x\vert D) p(xD)

比如,假定观测样本服从正态分布 p ( x ∣ μ , Σ ) p(x\vert \mu,\Sigma) p(xμ,Σ),给定 D D D,可以估计得到具体的 μ \mu μ Σ \Sigma Σ的取值,代入如下公式可得关于样本的密度分布函数:
p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(xμ,Σ)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))
但现在获得了有关 θ \theta θ的后验估计 p ( θ ∣ D ) p(\theta\vert D) p(θD),如何估计 p ( x ∣ D ) p(x\vert D) p(xD)

考虑全概率公式和边际分布:
p ( x ∣ D ) = ∫ θ p ( x , θ ∣ D ) d θ = ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \begin{align}p(x\vert D)&=\int_{\theta}p(x,\theta\vert D)d\theta\\ &=\int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta \end{align} p(xD)=θp(x,θD)dθ=θp(xθ)p(θD)dθ

  • p ( x ∣ θ ) = p ( x ∣ θ , D ) p(x\vert \theta)=p(x\vert \theta,D) p(xθ)=p(xθ,D): 在给定参数 θ \theta θ时,样本分布与训练集 D D D无关
  • ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta θp(xθ)p(θD)dθ: 不同参数的密度函数的加权平均

积分通常很难计算,使用蒙特卡洛近似方法: 是 M M M个不同参数的密度函数的平均。
p ^ ( x ∣ D ) = 1 M ∑ i = 1 M p ( x ∣ θ i ) , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯ , M \hat{p}(x\vert D)=\frac{1}{M}\sum_{i = 1}^{M}p(x\vert \theta_i),\theta_i\sim p(\theta\vert D),i = 1,\cdots,M p^(xD)=M1i=1Mp(xθi),θip(θD),i=1,,M

image-20250102145728416

一维情形:假定 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)且仅 μ \mu μ未知

假定参数 μ \mu μ的先验概率也服从正态分布: μ ∼ N ( μ 0 , σ 0 2 ) \mu\sim N(\mu_0,\sigma_0^2) μN(μ0,σ02)
p ( x ∣ μ ) = N ( μ , σ 2 ) , p ( μ ) = N ( μ 0 , σ 0 2 ) p(x\vert \mu)=N(\mu,\sigma^2),\ p(\mu)=N(\mu_0,\sigma_0^2) p(xμ)=N(μ,σ2), p(μ)=N(μ0,σ02)
第一个任务:给定样本集 D D D,在上述条件下,估计关于参数的后验分布 p ( μ ∣ D ) p(\mu\vert D) p(μD)

回顾我们前面得到的公式:
p ( θ ∣ D ) = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) p(\theta\vert D)=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)\\ p(θD)=θi=1np(xiθ)p(θ)dθi=1np(xiθ)p(θ)=αi=1np(xiθ)p(θ)
(应用后验估计)
p ( μ ∣ D ) = α ∏ i = 1 n p ( x i ∣ μ ) p ( μ ) = α ∏ i = 1 n 1 2 π σ exp ⁡ ( − 1 2 ( x i − μ ) 2 σ 2 ) 1 2 π σ 0 exp ⁡ ( − 1 2 ( μ − μ 0 ) 2 σ 0 2 ) = α ′ ∏ i = 1 n exp ⁡ { − 1 2 ∑ i = 1 n ( x i − μ ) 2 σ 2 − n 2 ( μ − μ 0 ) 2 σ 0 2 } = α ′ exp ⁡ { − 1 2 [ ( 1 σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } = α ′ ′ exp ⁡ { − 1 2 [ ( σ 0 2 + σ 2 σ 2 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } \begin{align} p(\mu\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \mu)p(\mu)\\ &=\alpha\prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x}_i - \mu)^2}{\sigma^2}\right)\frac{1}{\sqrt{2\pi}\sigma_0}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_0)^2}{\sigma_0^2}\right)\\ &=\alpha'\prod_{i = 1}^{n}\exp\left\{-\frac 1 2 \sum^n_{i=1}\frac{(\mathbf{x}_i-\mu)^2}{\sigma^2}-\frac n2\frac{(\mu-\mu_0)^2}{\sigma_0^2}\right\}\\ &=\alpha'\exp\left\{-\frac{1}{2}\left[\left(\frac{1}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\\ &=\alpha''\exp\left\{-\frac{1}{2}\left[\left(\frac{\sigma_0^2+\sigma^2}{\sigma^2\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\end{align} p(μD)=αi=1np(xiμ)p(μ)=αi=1n2π σ1exp(21σ2(xiμ)2)2π σ01exp(21σ02(μμ0)2)=αi=1nexp{21i=1nσ2(xiμ)22nσ02(μμ0)2}=αexp{21[(σ21+σ021)μ22(σ21i=1nxi+σ02μ0)μ]}=α′′exp{21[(σ2σ02σ02+σ2)μ22(σ21i=1nxi+σ02μ0)μ]}

一维后验分布的性质

  • p ( μ ∣ D ) p(\mu\vert D) p(μD)是关于 μ \mu μ的二次函数的 exp \text{exp} exp函数,因此,也是一个正态分布密度函数
  • p ( μ ∣ D ) p(\mu\vert D) p(μD)被称为再生密度(reproducing density),因为对于任意数量的训练样本,当样本数量 n n n增加时, p ( μ ∣ D ) p(\mu\vert D) p(μD)仍然保持正态分布。

由于 p ( μ ∣ D ) p(\mu\vert D) p(μD)是一个正态密度函数,我们可以将其改写为如下形式:
p ( μ ∣ D ) ∼ N ( μ n , σ n 2 ) = 1 2 π σ n 2 exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) p(\mu\vert D)\sim N(\mu_{n},\sigma_{n}^{2})=\frac{1}{\sqrt{2\pi\sigma_{n}^{2}}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right) p(μD)N(μn,σn2)=2πσn2 1exp(21σn2(μμn)2)
同时,我们也得到其公式为
p ( μ ∣ D ) = α ′ exp ⁡ { − 1 2 [ ( n σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } 1 σ n 2 = n σ 2 + 1 σ 0 2 , μ n σ n 2 = n σ 2 μ ˉ n + μ 0 σ 0 2 , μ ˉ n = 1 n ∑ i = 1 n x i p(\mu\vert D)=\alpha^{\prime}\exp\left\{-\frac{1}{2}\left[\left(\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}}\right)\mu^{2}-2\left(\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}\mathbf{x}_{i}+\frac{\mu_{0}}{\sigma_{0}^{2}}\right)\mu\right]\right\}\\ \frac{1}{\sigma_{n}^{2}}=\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}},\quad\frac{\mu_{n}}{\sigma^2_n}=\frac{n}{\sigma^{2}}\bar{\mu}_{n}+\frac{\mu_{0}}{\sigma_{0}^{2}},\quad \bar{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i} p(μD)=αexp{21[(σ2n+σ021)μ22(σ21i=1nxi+σ02μ0)μ]}σn21=σ2n+σ021,σn2μn=σ2nμˉn+σ02μ0,μˉn=n1i=1nxi
进一步可解得:
μ n = n σ 0 2 n σ 0 2 + σ 2 μ ˉ n + σ 2 n σ 0 2 + σ 2 μ 0 , σ n 2 = σ 2 σ 0 2 n σ 0 2 + σ 2 \mu_{n}=\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{\mu}_{n}+\frac{\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\mu_{0},\quad\sigma_{n}^{2}=\frac{\sigma^{2}\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}} μn=nσ02+σ2nσ02μˉn+nσ02+σ2σ2μ0,σn2=nσ02+σ2σ2σ02
这些方程展示了先验信息如何与样本中的经验信息相结合以获得后验密度 p ( μ ∣ D ) p(\mu\vert D) p(μD)

  • μ n \mu_{n} μn:代表在获得 n n n个样本后对 μ \mu μ的最佳猜测。
  • σ n 2 \sigma_{n}^{2} σn2:衡量对 μ \mu μ猜测的不确定性。
  • 因为 σ n 2 \sigma_{n}^{2} σn2 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。(这种先验起到了平滑的效果,导致了更加鲁棒的估计)

后验分布的变化趋势:因为 ( σ n ) 2 (\sigma_{n})^{2} (σn)2 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。随着 n n n的增加, p ( μ ∣ D ) p(\mu\vert D) p(μD)变得越来越尖锐,当 n n n趋于无穷大时,趋近于狄拉克δ函数(Dirac delta function)。

现在,我们希望获得后验数据分布 :
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) 1 2 π σ n exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) d μ = 1 2 π σ σ n ∫ μ exp ⁡ ( − 1 2 [ ( x − μ ) 2 σ 2 + ( μ − μ n ) 2 σ n 2 ] ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ n ) 2 σ 2 + σ n 2 ) f ( σ , σ n ) f ( σ , σ n ) = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 σ 2 + σ n 2 σ 2 σ n 2 ( μ − σ 2 x + σ n 2 μ n σ 2 + σ n 2 ) 2 ) d μ \begin{align} p(\mathbf{x}\vert D)&=\int_{\mu}p(\mathbf{x}\vert \mu)p(\mu\vert D)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}\right)\frac{1}{\sqrt{2\pi}\sigma_{n}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right)d\mu\\ &=\frac{1}{{2\pi}\sigma\sigma_{n}}\int_{\mu}\exp\left(-\frac{1}{2}\left[\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}+\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right]\right)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu_{n})^{2}}{\sigma^{2}+\sigma_{n}^{2}}\right)f(\sigma,\sigma_n)\\ f(\sigma,\sigma_{n})&=\int_{\mu} \frac{1}{\sqrt{2\pi\sigma}} \exp \left( - \frac{1}{2} \frac{\sigma^2 + \sigma_n^2}{\sigma^2 \sigma_n^2} \left( \mu - \frac{\sigma^2 \mathbf{x} + \sigma_n^2 \mu_n}{\sigma^2 + \sigma_n^2} \right)^2 \right) d\mu \end{align} p(xD)f(σ,σn)=μp(xμ)p(μD)dμ=μ2π σ1exp(21σ2(xμ)2)2π σn1exp(21σn2(μμn)2)dμ=2πσσn1μexp(21[σ2(xμ)2+σn2(μμn)2])dμ=μ2π σ1exp(21σ2+σn2(xμn)2)f(σ,σn)=μ2πσ 1exp(21σ2σn2σ2+σn2(μσ2+σn2σ2x+σn2μn)2)dμ

可以将 p ( x ∣ D ) p(\mathbf{x}\vert D) p(xD)视为服从正态分布 N ( μ n , σ 2 + σ n 2 ) N(\mu_n,\sigma^2+\sigma^2_n) N(μn,σ2+σn2)

多元情形:高维

已知条件是:
p ( x ∣ μ ) ∼ N ( μ , Σ ) , p ( μ ) ∼ N ( μ 0 , Σ 0 ) p ( θ ∣ D ) = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) = α ′ exp ⁡ { − 1 2 μ T ( n Σ − 1 + Σ 0 − 1 ) μ − 2 μ T ( Σ − 1 ∑ i = 1 n x i + Σ 0 − 1 μ 0 ) } = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } \begin{align}p(\mathbf x\vert \mathbf \mu)&\sim N(\mathbf \mu,\Sigma),p(\mu)\sim N(\mu_{0},\Sigma_{0})\\ p(\theta\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf x_{i}\vert \theta)p(\theta)\\ &=\alpha^{\prime}\exp\left\{-\frac{1}{2}\mu^{T}(n\Sigma^{- 1}+\Sigma_{0}^{-1})\mu - 2\mu^{T}(\Sigma^{-1}\sum_{i = 1}^{n}\mathbf x_{i}+\Sigma_{0}^{-1}\mu_{0})\right\}\\ &=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\end{align} p(xμ)p(θD)N(μ,Σ),p(μ)N(μ0,Σ0)=αi=1np(xiθ)p(θ)=αexp{21μT(nΣ1+Σ01)μ2μT(Σ1i=1nxi+Σ01μ0)}=α′′exp{21(μμn)TΣn1(μμn)}
参照上面一维的情况,可以推出:
p ( θ ∣ D ) = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } ⇒ p ( θ ∣ D ) ∼ N ( μ n , Σ n ) ⇒ Σ n − 1 = n Σ − 1 + Σ 0 − 1 , Σ n − 1 μ n = n Σ − 1 μ ^ n + Σ 0 − 1 μ 0 , μ ^ n = 1 n ∑ i = 1 n x i μ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 μ ^ n + ( Σ 0 + n − 1 Σ ) − 1 Σ 0 μ 0 Σ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 1 n Σ \begin{align} p(\theta\vert D)&=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\Rightarrow p(\theta\vert D)\sim N(\mu_{n},\Sigma_{n})\\ \Rightarrow\Sigma_{n}^{-1}&=n\Sigma^{-1}+\Sigma_{0}^{-1},\quad \Sigma_{n}^{-1}\mu_{n}=n\Sigma^{-1}\hat{\mu}_{n}+\Sigma_{0}^{-1}\mu_{0},\quad \hat{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf x_{i}\\ \mu_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\hat{\mu}_{n}+(\Sigma_{0}+n^{-1}\Sigma)^{-1}\Sigma_{0}\mu_{0}\\ \Sigma_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\frac{1}{n}\Sigma \end{align} p(θD)Σn1μnΣn=α′′exp{21(μμn)TΣn1(μμn)}p(θD)N(μn,Σn)=nΣ1+Σ01,Σn1μn=nΣ1μ^n+Σ01μ0,μ^n=n1i=1nxi=Σ0(Σ0+n1Σ)1μ^n+(Σ0+n1Σ)1Σ0μ0=Σ0(Σ0+n1Σ)1n1Σ

( A − 1 + B − 1 ) − 1 = A ( A + B ) − 1 B = B ( A + B ) − 1 A (A^{-1}+B^{-1})^{-1}=A(A+B)^{-1}B=B(A+B)^{-1}A (A1+B1)1=A(A+B)1B=B(A+B)1A

数据后验分布服从正态分布:
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ ∼ N ( μ n , Σ + Σ n ) p(\mathbf x\vert D)=\int_{\mu}p(\mathbf x\vert \mu)p(\mu\vert D)d\mu\sim N(\mu_{n},\Sigma+\Sigma_{n}) p(xD)=μp(xμ)p(μD)dμN(μn,Σ+Σn)


http://www.ppmy.cn/devtools/150034.html

相关文章

【每日学点鸿蒙知识】关于热修复、图片预览、多个@State刷新性能问题等

1、是否推荐使用bm quickfix制造修复包? 官方文档文档中显示:快速修复补丁安装bm quickfix -a -f /data/app/有两个问题: hqf文件如何制作的文档没有找到。hqf 是不是新版本和旧版本的差分包咨询场景描述:app可以在运行过程中修…

Docker Compose 教程

Docker Compose 是一个 Docker 容器的依赖管理工具。 例如我们一个服务需要依赖到多个 Docker 容器,那么使用 Docker Compose 这个工具就能很方便的帮助我们管理。 Docker Compose 通过配置文件 .yml。 定义了所有容器的依赖关系。 然后我们只需把我们想要的 Docke…

深度学习中的常见初始化方法:原理、应用与比较

【 Transformer 系列,故事从 d k \sqrt{d_k} dk​ ​说起】 LLM这么火,Transformer厥功甚伟,某天心血来潮~,再去看看! 它长这个样子: 深入浅出 Transformer 看完后,想起了老生常谈 d k \sqrt{d_…

windows servre 2008 加密本地windows 操作系统驱动器,bitlocker加解密过程

首先点击服务器管理器,点击功能选项,添加功能 下一步 安装 需要重启 发现安装成功 发现只有一个盘,再添加一个盘 点击虚拟机设置 点击下一步 下一步 下一步 储存为单个文件 点击完成 找到这里 如果脱机就选择联机 右键初始化磁盘 点击确定 右…

uniapp中修改input里的字体颜色

<input type"text" placeholder"从哪儿出发" v-model"start.site_name"placeholder-class"shi-co" disabled"true" value"" /> 给input加上placeholder-class属性&#xff0c;然后给此属性加上样式。 未选…

SQLite PRAGMA

SQLite的PRAGMA命令是一种特殊的命令&#xff0c;用于在SQLite环境中控制各种环境变量和状态标志。PRAGMA值可以被读取&#xff0c;也可以根据需求进行设置【0†source】。 PRAGMA命令的语法格式如下&#xff1a; 要查询当前的PRAGMA值&#xff0c;只需提供该PRAGMA的名字&am…

当Elasticsearch索引数据量过多时,可以采取以下措施进行优化和部署

调整索引分片数量&#xff1a;根据数据量和集群规模&#xff0c;重新分配索引的分片数量。较小的索引分片可以提高查询性能&#xff0c;但过多的分片也会增加管理开销。因此&#xff0c;需要根据具体情况进行权衡。调整副本数量&#xff1a;根据数据量和查询负载&#xff0c;适…

深入NLP核心技术:文本张量表示与词嵌入全面解析

系列文章目录 01-中文NLP入门必备&#xff1a;全面解析分词、命名实体识别与词性标注&#xff08;附详细实战案例&#xff09; 02-深入NLP核心技术&#xff1a;文本张量表示与词嵌入全面解析 文章目录 系列文章目录前言一、文本张量表示1.1 文本张量表示简介1.1.1 举例说明1.1…