特征分解（Eigen decomposition）在深度学习中的应用与理解

特征分解在深度学习中的应用与理解

特征分解（Eigendecomposition）是线性代数中的一个核心工具，在深度学习领域有着广泛的应用，尤其是在涉及矩阵操作和概率模型时。对于研究者来说，理解特征分解不仅有助于掌握数学基础，还能加深对模型设计和优化的洞察。本文将面向深度学习研究者，详细介绍特征分解的基本概念、计算方法，以及其在高斯分布采样（如 VAE）中的具体应用。

什么是特征分解？

特征分解是将一个方阵分解为特征值和特征向量的形式的过程。假设我们有一个 ( $\times d$ ) 的方阵 ( $A$ )，如果它可以写成以下形式：

$A = U S U^T$

那么我们说 ( $A$ ) 被特征分解了，其中：

( $U$ ) 是一个正交矩阵（即 ( $U^T U = I$ )），其列是 ( $A$ ) 的特征向量。
( $S$ ) 是一个对角矩阵，其对角线元素是 ( $A$ ) 的特征值。
( $U^T$ ) 是 ( $U$ ) 的转置。

这种分解的前提是 ( $A$ ) 必须是对称矩阵（即 ( $A = A^T$ )），并且通常要求 ( $A$ ) 是可对角化的（即有 ( $d$ ) 个线性无关的特征向量）。在深度学习中，许多矩阵（如协方差矩阵）是对称的，因此特征分解特别有用。

特征值与特征向量的物理意义

特征向量：( $A$ ) 的特征向量 ( $u_i$ ) 满足 ( $A u_i = λ_i u_i$ )，其中 ( $λ_i$ ) 是对应的特征值。直观来说，特征向量是矩阵 ( $A$ ) 作用下仅被拉伸或压缩（而不改变方向）的向量。
特征值：特征值 ( $λ_i$ ) 表示特征向量被拉伸或压缩的幅度。如果 ( $λ_i < 0$ )，方向会反转。

在特征分解中，( $U$ ) 的列将原始空间变换到一个新坐标系（特征向量基），而 ( $S$ ) 描述了在这个新坐标系下矩阵 ( $A$ ) 的作用仅是对各个维度进行缩放。

如何计算特征分解？

计算特征分解的过程通常分为两步：

求解特征值：通过特征方程 ( $\det(A - λI) = 0$ ) 找到 ( $A$ ) 的特征值 ( $λ_1, λ_2, \dots, λ_d$ )。这是一个多项式方程，解出所有的根。
求解特征向量：对于每个特征值 ( $λ_i$ )，解线性方程组 ( $A - λ_i I) u_i = 0$ ) 得到对应的特征向量 ( $u_i$ )。然后将 ( $u_i$ ) 归一化并正交化，构成 ( $U$ )。

在实践中，我们通常使用数值方法（如 QR 算法）通过库（如 NumPy 或 PyTorch）直接计算。例如，在 Python 中：

import numpy as npA = np.array([[4, 1], [1, 3]])  # 对称矩阵
eigenvalues, eigenvectors = np.linalg.eigh(A)  # eigh 用于对称矩阵
S = np.diag(eigenvalues)
U = eigenvectors
A_reconstructed = U @ S @ U.T  # 重构 A
print(np.allclose(A, A_reconstructed))  # True

这里 ( \text{eigh} ) 返回的 ( U ) 已保证正交，( S ) 是对角矩阵。

特征分解在深度学习中的应用

特征分解在深度学习中有许多实际应用，以下以高斯分布采样为例，展示其重要性。

高斯分布的采样与协方差矩阵

在概率模型（如 VAE）中，我们常需要从多元高斯分布 ( $\sim \mathcal{N}(μ, Σ)$ ) 中采样，其中 ( $Σ$ ) 是协方差矩阵。为了生成这样的样本，可以利用重参数化技巧：具体请参考笔者的另一篇博客：VAE中的编码器（Encoder）详解

$Σ^{1/2} ϵ, \quad ϵ \sim \mathcal{N}(0, I)$

这里的 ( $Σ^{1/2}$ ) 是 ( $Σ$ ) 的“平方根”，即满足 ( $Σ^{1/2} (Σ^{1/2})^T = Σ$ ) 的矩阵。特征分解提供了一种计算 ( $Σ^{1/2}$ ) 的方法。

假设 ( $Σ$ ) 是对称正定矩阵（常见于协方差矩阵），其特征分解为：

$Σ = U S U^T$

( $\text{diag}(λ_1, λ_2, \dots, λ_d)$ )，( $λ_i \geq 0$ ) 是特征值（正定性保证）。
( $U$ ) 是正交矩阵。

则 ( $Σ^{1/2}$ ) 可以定义为：

$Σ^{1/2} = U S^{1/2} U^T$

其中 ( $S^{1/2} = \text{diag}(\sqrt{λ_1}, \sqrt{λ_2}, \dots, \sqrt{λ_d})$ )，因为：

$Σ^{1/2} (Σ^{1/2})^T = (U S^{1/2} U^T) (U S^{1/2} U^T)^T = U S^{1/2} U^T U S^{1/2} U^T = U S^{1/2} S^{1/2} U^T = U S U^T = Σ$

验证采样正确性：

期望：( $\mathbb{E}[z] = \mathbb{E}[μ + Σ^{1/2} ϵ] = μ$ )。
协方差：( $\text{Cov}(z) = \mathbb{E}[Σ^{1/2} ϵ (Σ^{1/2} ϵ)^T] = Σ^{1/2} \mathbb{E}[ϵ ϵ^T] (Σ^{1/2})^T = Σ^{1/2} I (Σ^{1/2})^T = Σ$ )。