费舍尔信息矩阵 低秩矩阵 渐近正态性

embedded/2024/11/14 2:19:56/

啊啊啊啊啊啊啊啊啊啊
数学!!!!我恨你!!!
我也不是很知道这个是如运用在大模型调参的
但是看书中遇到了,不是很理解,就跑出来查一下这块知识 整来整去感觉整了坨大的。。。。
并没有很深体会。。。。 还要再沉淀沉淀。。。
emo中。。。。

费舍尔信息矩阵(Fisher Information Matrix, FIM)

1. 定义

费舍尔信息矩阵是衡量一个随机样本对未知参数统计信息量的矩阵。它是一个 m × m m \times m m×m矩阵,其中 m m m是参数的数量。费舍尔信息矩阵定义为:
F = E p ( x ∣ θ ) [ ∇ log ⁡ p ( x ∣ θ ) ∇ log ⁡ p ( x ∣ θ ) T ] \mathbf{F} = \mathbb{E}_{p(x|\theta)} \left[ \nabla \log p(x|\theta) \nabla \log p(x|\theta)^T \right] F=Ep(xθ)[logp(xθ)logp(xθ)T]
其中, ∇ log ⁡ p ( x ∣ θ ) \nabla \log p(x|\theta) logp(xθ)是关于参数 θ \theta θ的对数似然函数的梯度,而 E p ( x ∣ θ ) \mathbb{E}_{p(x|\theta)} Ep(xθ)表示在概率分布 p ( x ∣ θ ) p(x|\theta) p(xθ)下的期望。

2. 相关定理

  • Asymptotic Normality of MLE:在多参数情况下,最大似然估计(MLE)的渐近正态性可以扩展到参数向量 θ \theta θ。根据定理15.2,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(xθ):θΩ}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θRk k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n (θ^nθ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, \mathbf{I}(\theta)^{-1}) N(0,I(θ)1),其中 I ( θ ) − 1 \mathbf{I}(\theta)^{-1} I(θ)1 I ( θ ) \mathbf{I}(\theta) I(θ)的逆矩阵

3. 公式

费舍尔信息矩阵的元素可以通过以下公式计算:
I ( θ ) i j = Cov θ ( ∂ ∂ θ i log ⁡ f ( X ∣ θ ) , ∂ ∂ θ j log ⁡ f ( X ∣ θ ) ) = − E θ ( ∂ 2 ∂ θ i ∂ θ j log ⁡ f ( X ∣ θ ) ) \mathbf{I}(\theta)_{ij} = \text{Cov}_{\theta} \left( \frac{\partial}{\partial \theta_i} \log f(X|\theta), \frac{\partial}{\partial \theta_j} \log f(X|\theta) \right) = -E_{\theta} \left( \frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X|\theta) \right) I(θ)ij=Covθ(θilogf(Xθ),θjlogf(Xθ))=Eθ(θiθj2logf(Xθ))
这个公式表明费舍尔信息矩阵的第 i i i行第 j j j列元素是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。

4. 推导

推导费舍尔信息矩阵的过程涉及到对数似然函数的梯度和黑森矩阵(Hessian matrix)。对数似然函数的黑森矩阵是其梯度的雅可比矩阵,而费舍尔信息矩阵是这个黑森矩阵的负期望值。具体来说:
F = − E p ( x ∣ θ ) [ ∂ 2 ∂ θ ∂ θ T log ⁡ p ( x ∣ θ ) ] \mathbf{F} = -\mathbb{E}_{p(x|\theta)} \left[ \frac{\partial^2}{\partial \theta \partial \theta^T} \log p(x|\theta) \right] F=Ep(xθ)[θθT2logp(xθ)]
这个公式表明费舍尔信息矩阵是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。

5. 应用

费舍尔信息矩阵机器学习和统计学中有广泛的应用,包括但不限于:

  • 自然梯度优化:利用费舍尔信息矩阵进行自然梯度优化,可以提高优化效率。
  • Cramer-Rao下界:费舍尔信息矩阵与Cramer-Rao下界有关,后者提供了参数估计的方差下界。

低秩矩阵详细教程

1. 定义

低秩矩阵是指矩阵的秩(即矩阵中线性无关的行或列的最大数目)相对较小的矩阵。如果一个矩阵的秩远小于其行数或列数,那么这个矩阵就被称为低秩矩阵。低秩矩阵的每行或者每列都可以用其他的行或者列线性表示,这说明这个矩阵包含了大量的冗余信息。

2. 相关定理

  • Von Neumann Trace Inequality:对于 m ≥ n m \geq n mn,设 A , B ∈ R m × n A, B \in \mathbb{R}^{m \times n} A,BRm×n具有奇异值 σ 1 ( A ) ≥ ⋯ ≥ σ n ( A ) \sigma_1(A) \geq \cdots \geq \sigma_n(A) σ1(A)σn(A) σ 1 ( B ) ≥ ⋯ ≥ σ n ( B ) \sigma_1(B) \geq \cdots \geq \sigma_n(B) σ1(B)σn(B),则有
    ∣ ⟨ A , B ⟩ ∣ ≤ ∑ i = 1 n σ i ( A ) σ i ( B ) | \langle A, B \rangle | \leq \sum_{i=1}^n \sigma_i(A)\sigma_i(B) A,Bi=1nσi(A)σi(B)
    这个不等式提供了两个矩阵内积的上界。

  • Schatten Norms:对于任意的 1 ≤ p ≤ ∞ 1 \leq p \leq \infty 1p p p p-Schatten范数定义为
    ∥ A ∥ ( p ) : = ∥ s ( A ) ∥ p \|A\|(p) := \|s(A)\|_p A(p):=s(A)p
    其中 s ( A ) = ( σ 1 , … , σ n ) s(A) = (\sigma_1, \ldots, \sigma_n) s(A)=(σ1,,σn) A A A的奇异值。这个范数是矩阵范数的一种,特别地, p = ∞ p = \infty p=时是谱范数, p = 2 p = 2 p=2时是Frobenius范数, p = 1 p = 1 p=1时是核范数。

3. 公式

  • 核范数(Nuclear Norm)矩阵 A A A的核范数是其奇异值之和,即
    ∥ A ∥ ∗ = ∑ i = 1 n σ i ( A ) \|A\|_* = \sum_{i=1}^n \sigma_i(A) A=i=1nσi(A)
    核范数在低秩矩阵补全中被用作凸松弛。

  • 低秩近似:对于给定的矩阵 A A A,其最佳低秩近似 T k ( A ) T_k(A) Tk(A)可以通过截断奇异值分解(SVD)得到,即保留前 k k k个奇异值,舍去其余奇异值。对于任何酉不变范数,有
    ∥ T k ( A ) − A ∥ = ∑ i = k + 1 n σ i 2 \|T_k(A) - A\| = \sqrt{\sum_{i=k+1}^n \sigma_i^2} Tk(A)A=i=k+1nσi2
    特别地,对于谱范数和Frobenius范数,有
    ∥ A − T k ( A ) ∥ 2 = σ k + 1 , ∥ A − T k ( A ) ∥ F = ∑ i = k + 1 n σ i 2 \|A - T_k(A)\|_2 = \sigma_{k+1}, \quad \|A - T_k(A)\|_F = \sqrt{\sum_{i=k+1}^n \sigma_i^2} ATk(A)2=σk+1,ATk(A)F=i=k+1nσi2

4. 推导

  • 低秩矩阵补全:考虑最小化核范数的问题,可以转化为最小化矩阵的Frobenius范数,即
    min ⁡ X ∥ X ∥ ∗ s.t. X Ω = Y Ω \min_{X} \|X\|_* \quad \text{s.t.} \quad X_\Omega = Y_\Omega minXXs.t.XΩ=YΩ
    其中 Y Y Y是部分观测的矩阵 Ω \Omega Ω是观测到的元素索引集合, X X X是我们希望得到的估计矩阵

  • SVD下的伪逆:对于矩阵 A A A的SVD分解 A = U Σ V T A = U\Sigma V^T A=UΣVT,其伪逆可以表示为
    A † = V Σ † U T A^\dagger = V\Sigma^\dagger U^T A=VΣUT
    其中 Σ † \Sigma^\dagger Σ Σ \Sigma Σ的伪逆,即对 Σ \Sigma Σ的非零元素取倒数并转置。

渐近正态性(Asymptotic Normality of MLE)

1. 定义

最大似然估计(MLE)的渐近正态性是指,当样本量趋于无穷大时,MLE估计量的分布趋近于正态分布。具体来说,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(xθ):θΩ}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θRk k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n (θ^nθ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, I(\theta)^{-1}) N(0,I(θ)1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵

2. 相关定理

  • 渐近正态性定理:假设模型满足一定的正则条件,如对数似然函数在参数 θ \theta θ处是可微的,并且 θ ^ \hat{\theta} θ^是唯一解,那么 θ ^ \hat{\theta} θ^是渐近正态的,即 n ( θ ^ − θ 0 ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n (θ^θ0)d N(0,I(θ0)1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵

3. 公式

费舍尔信息矩阵的定义为:
I ( θ ) = E θ [ ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) T ] = − E θ [ ∂ 2 ∂ θ 2 log ⁡ f ( X ∣ θ ) ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] = -\mathbb{E}_{\theta} \left[ \frac{\partial^2}{\partial \theta^2} \log f(X|\theta) \right] I(θ)=Eθ[(θlogf(Xθ))(θlogf(Xθ))T]=Eθ[θ22logf(Xθ)]

渐近正态性的公式为:
n ( θ ^ n − θ ) → d N ( 0 , I ( θ ) − 1 ) \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) n (θ^nθ)d N(0,I(θ)1)

4. 推导

推导渐近正态性的过程如下:

  1. 对数似然函数的定义
    l ( θ ) = ∑ i = 1 n log ⁡ f ( X i ∣ θ ) l(\theta) = \sum_{i=1}^n \log f(X_i|\theta) l(θ)=i=1nlogf(Xiθ)

  2. 得分函数(Score Function)
    S ( θ ) = ∂ ∂ θ l ( θ ) = ∑ i = 1 n ∂ ∂ θ log ⁡ f ( X i ∣ θ ) S(\theta) = \frac{\partial}{\partial \theta} l(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log f(X_i|\theta) S(θ)=θl(θ)=i=1nθlogf(Xiθ)

  3. 费舍尔信息矩阵
    I ( θ ) = E θ [ ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) T ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] I(θ)=Eθ[(θlogf(Xθ))(θlogf(Xθ))T]

  4. 中心极限定理的应用
    根据中心极限定理,得分函数的均值为零,方差为费舍尔信息矩阵
    n ( 1 n S ( θ ) ) → d N ( 0 , I ( θ ) ) \sqrt{n} \left( \frac{1}{n} S(\theta) \right) \xrightarrow{d} N(0, I(\theta)) n (n1S(θ))d N(0,I(θ))

  5. 泰勒展开
    对于MLE θ ^ \hat{\theta} θ^,在 θ 0 \theta_0 θ0处进行泰勒展开:
    0 = S ( θ ^ ) ≈ S ( θ 0 ) + ∂ S ( θ 0 ) ∂ θ ( θ ^ − θ 0 ) 0 = S(\hat{\theta}) \approx S(\theta_0) + \frac{\partial S(\theta_0)}{\partial \theta} (\hat{\theta} - \theta_0) 0=S(θ^)S(θ0)+θS(θ0)(θ^θ0)

  6. 渐近正态性
    由于 ∂ S ( θ 0 ) ∂ θ ≈ − n I ( θ 0 ) \frac{\partial S(\theta_0)}{\partial \theta} \approx -nI(\theta_0) θS(θ0)nI(θ0),我们有:
    n ( θ ^ − θ 0 ) ≈ − ( 1 n ∂ S ( θ 0 ) ∂ θ ) − 1 ( 1 n S ( θ 0 ) ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n} (\hat{\theta} - \theta_0) \approx -\left( \frac{1}{n} \frac{\partial S(\theta_0)}{\partial \theta} \right)^{-1} \left( \frac{1}{\sqrt{n}} S(\theta_0) \right) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n (θ^θ0)(n1θS(θ0))1(n 1S(θ0))d N(0,I(θ0)1)

5. 应用

  • 参数估计的方差下界:渐近正态性表明,MLE在大样本情况下是无偏的,并且其方差达到Cramer-Rao下界。
  • 置信区间的构建:利用渐近正态性,可以构建参数的置信区间。例如,对于参数 θ \theta θ,其估计值 θ ^ \hat{\theta} θ^的置信区间可以表示为 θ ^ ± z α / 2 I ( θ ^ ) − 1 / n \hat{\theta} \pm z_{\alpha/2} \sqrt{I(\hat{\theta})^{-1}/n} θ^±zα/2I(θ^)1/n

http://www.ppmy.cn/embedded/137370.html

相关文章

ES6 中 Map 和 Set

Map ES6 以前在 js 中实现 key/value 的存储形式都可以使用 Object 来实现,也就是对象的 属性做为键,当需要获取 value 时,必须要通过对应的 key 去访问。 Map 和 Object 的区别 key 上的区别 Object 的 key 类型只能是 number | string |…

JS如何获取MQTT的主题

在JavaScript中,要获取MQTT发布的主题,你通常需要使用一个MQTT客户端库来连接到MQTT代理(broker),并订阅你感兴趣的主题。当消息到达时,客户端会触发一个回调函数,该函数将包含消息的主题和消息内容。 以下是一个使用mqtt.js(一个流行的Node.js MQTT客户端库)的示例,…

工程认证标准下的Spring Boot计算机课程管理策略

5系统详细实现 5.1 管理员模块的实现 5.1.1 教师信息管理 基于工程教育认证的计算机课程管理平台的系统管理员可以管理教师,可以对教师信息修改删除以及查询操作。具体界面的展示如图5.1所示。 图5.1 教师信息管理界面 5.1.2 通知公告管理 系统管理员可以对通知公…

Android 手机设备的OEM-unlock解锁 和 adb push文件

OEM-unlock解锁 和 adb push文件 【第一步:点击版本号,打开开发者模式,进入开发者选项】 - OEM unlocking 【第二步:手动打开OEM开关】 - adb reboot bootloader 【第三步:输入命令】 - fastboot flashing unlock 【第四步&…

《重学Java设计模式》之 原型模式

原型模式主要解决的问题就是创建重复对象,而这部分对象内容本身比较复杂,生成过程可能从库或者RPC接口中获取数据的耗时较长,因此采用克隆的方式节省时间。 案例:上机考试抽题,要求打乱题目、答案数据 工厂结构 选择题…

Elasticsearch中什么是倒排索引?

倒排索引(Inverted Index)是一种索引数据结构,它在信息检索系统中被广泛使用,特别是在全文搜索引擎中。倒排索引允许系统快速检索包含给定单词的文档列表。它是文档内容(如文本)与其存储位置之间的映射&…

【121. 买卖股票的最佳时机】——贪心算法/动态规划

121. 买卖股票的最佳时机 一、题目难度 简单 三、题目描述 给定一个数组 prices,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择某一天买入这只股票,并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获…

如何优化Elasticsearch查询以提高性能?

为了优化Elasticsearch查询以提高性能,以下是一些实用的策略和技巧: 节点负载均衡: 通过调整副本数来实现负载均衡。确保分片和副本的总数与节点数量相匹配,以均匀分配查询请求。 慢查询处理: 开启慢查询日志&#xf…