《机器学习数学基础》补充资料：矩阵基本子空间

embedded/2025/2/9 3:53:26/

秩-零化度定理是线性代数中第一个基本定理，本文介绍的“矩阵基本子空间”，是第二定理。

定理2：矩阵基本子空间

对于 $m\times n$ 的矩阵 $\pmb{A}$ （仅讨论实数矩阵），用线性变换表示 $\pmb{A}:\mathbb{R}^n\to\mathbb{R}^m$ ，用如下符号表示不同空间：

列空间（column space）： $C(\pmb{A})=\{\pmb{Ax}|\pmb{x}\in\mathbb{R}^n\}$ ，即矩阵的值域（range）。将矩阵用列向量的方式表示 $\pmb{A}=\begin{bmatrix}\pmb{a}_1&\cdots&\pmb{a}_n\end{bmatrix}$ ，其中 $\pmb{a}_j\in\mathbb{R}^m$ ， $C(\pmb{A})$ 是列向量的线性组合。
零空间（nullspace）： $N(\pmb{A})=\{\pmb{x}\in\mathbb{R}^n|\pmb{Ax}=\pmb{0}\}$
行空间（row space）：是转置矩阵 $AT \pmb{A}^{\text{T}}$ 的列空间， $C(\pmb{A}^{\text{T}})$

因为矩阵的行秩等于列秩，即 $\text{rank}\pmb{A}=\dim C(\pmb{A})=\dim C(\pmb{A}^{\text{T}})$ ，于是“秩—零化度定理”可以写成：

$\dim N(\pmb{A}) + \dim C(\pmb{A}^{\text{T}})$
将原矩阵转置，即得：

$m=\dim N(\pmb{A}^{\text{T}})+\dim C(\pmb{A})$

左零空间（left nullspace）： $N(\pmb{A}^T)$

$C(\pmb{A}^{\text{T}}),N(\pmb{A})$ 是 $\mathbb{R}^n$ 的子空间， $C(\pmb{A}),N(\pmb{A}^{\text{T}})$ 是 $\mathbb{R}^m$ 的子空间。

秩—零化度定理已经说明了矩阵基本子空间的维数关系。

以上四个矩阵的基本子空间如下图所示：
在这里插入图片描述

在《机器学习数学基础》第 3 章 3.4 节“正交和投影”中，专门介绍了向量和向量空间的正交概念。此处就探讨矩阵的四个子空间的正交关系，这些关系就构成了线性代数的一个基本定理，即说明矩阵四个基本子空间的正交补的关系。

设 $\pmb{S}$ 和 $\pmb{T}$ 是向量空间 $\mathbb{R}^p$ 的两个子空间，若它们正交，记作 $S⊥T \pmb{S}\bot\pmb{T}$ 。

在向量空间 $\mathbb{R}^p$ 中所有与 $\pmb{S}$ 正交的向量称为正交补（orthogonal complement），记作 $\pmb{S}^{\bot}$ 。

$p=\dim{\pmb{S}} + \dim\pmb{S}^{\bot}$ 且 $\pmb{S}\cap\pmb{S}^{\bot}=\{\pmb{0}\}$ 。

基本子空间的正交关系

$N(\pmb{A})=C(\pmb{A}^{\text{T}})^{\bot}$
$N(\pmb{A}^{\text{T}})=C(\pmb{A})^{\bot}$

下图显示了四个基本子空间之间的正交关系：
在这里插入图片描述

证明

由矩阵 $Am×n \pmb{A}_{m\times n}$ 的零空间定义（参考文献 [4]）可知：

$\pmb{Ax}=0 \Longrightarrow \pmb{Ax}=\begin{bmatrix}A的第1行(row_1)\\\vdots\\A的第m行(row_m)\end{bmatrix}\pmb{x}=\begin{bmatrix}0\\\vdots\\0\end{bmatrix}$
每个行向量与 $\pmb{x}$ 的内积都是 $0$ ，所以 $\pmb{x}$ 与所有行向量的线性组合正交，即 $N(\pmb{A})\bot C(\pmb{A}^{\text{T}})$ 。

又因为 $\dim N(\pmb{A}) + \dim C(\pmb{A}^{\text{T}})$ ，

所以： $N(\pmb{A})=C(\pmb{A}^{\text{T}})^{\bot}$

同样思路，对 $\pmb{A}$ 转置，有：

$\pmb{A}^{\text{T}}\pmb{y}=\begin{bmatrix}A的第1列(col_1)\\\vdots\\A的第n列(col_n)\end{bmatrix}\pmb{y}=\begin{bmatrix}0\\\vdots\\0\end{bmatrix}$
矩阵 $\pmb{A}$ 的每个列向量都与 $\pmb{y}$ 正交，即 $N(\pmb{A}^{\text{T}})=C(\pmb{A})^{\bot}$ 。

为什么称为左零空间？

$\pmb{A}^{\text{T}}\pmb{y}=0$ ，左右都取转置， $\pmb{y}^{\text{T}}\pmb{A}=\pmb{0}^{\text{T}}$ ， $yT \pmb{y}^{\text{T}}$ 位于 $\pmb{A}$ 的左边，故称 $N(\pmb{A}^{\text{T}})$ 为左零空间。