《机器学习数学基础》补充资料:秩-零化度定理

embedded/2025/2/7 7:32:40/

在拙作《机器学习数学基础》中,对于机器学习直接相关的线性代数的内容做了比较详细的讲解,但是,由于书中是以“机器学习”为核心,而非“线性代数”,所以对其中的更基本的内容没有深入探究。为了让有兴趣深入学习的读者对线性代数“更上层楼”,此处再补充线性代数的基本定理

线性代数的核心问题是向量空间的线性变换,向量空间是线性代数的研究对象,线性变换是研究向量空间的基本方法。线性变换将一个向量空间的子空间映射到另一个向量空间中的子空间。

Gilbert Strang在著作《The Fundamental Theorem of Linear Algebra》中提出线性代数有四个基本定理。本文的秩-零化度定理是其中的第一个。

以下关于秩-零化度定理(rank-nullity theorem)的阐述。以下内容主要参考文献 [2]。

如下图所示,线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:VW V \mathbb{V} V 是有限维向量空间,称为定义域 T \pmb{T} T值域,记作: R ( T ) R(\pmb{T}) R(T) ,是 W \mathbb{W} W 的子集, R ( T ) = { T ( v ) ∣ v ∈ V } R({\pmb{T}})=\{\pmb{T}(\pmb{v})|\pmb{v}\in\mathbb{V}\} R(T)={T(v)vV}
在这里插入图片描述

  • :若 V \mathbb{V} V 里面有一个向量集合,其中每个向量 u \pmb{u} u T \pmb{T} T 映射之后为零向量,即 T ( u ) = 0 \pmb{T}(\pmb{u})=\pmb{0} T(u)=0 ,则此向量集合称为 T \pmb{T} T(kernel),记作: ker ⁡ ( T ) \ker(\pmb{T}) ker(T) ker ( T ) \text{ker}(\pmb{T}) ker(T) 满足向量加法和数量乘法封闭性,是 V \mathbb{V} V 的一个子空间。核也称为零空间(nullspace), ker ⁡ ( T ) = { v ∈ V ∣ T ( v ) = 0 } \ker(\pmb{T})=\{\pmb{v}\in\mathbb{V}|\pmb{T}(\pmb{v})=\pmb{0}\} ker(T)={vVT(v)=0}

  • 零化度:核的维度(dimension),称为零化度(nullity),记作: dim ⁡ ker ⁡ ( T ) \dim\ker(\pmb{T}) dimker(T) 。可以度量核的大小。

  • :线性变换 T \pmb{T} T 的值域的维度,称为(rank),记作: rank T = dim ⁡ R ( T ) \text{rank}\pmb{T}=\dim R(\pmb{T}) rankT=dimR(T)

秩—零化度定理

dim ⁡ V = dim ⁡ ker ⁡ ( T ) + rank T \dim\mathbb{V}=\dim\ker(\pmb{T})+\text{rank}\pmb{T} dimV=dimker(T)+rankT

其中: dim ⁡ V \dim\mathbb{V} dimV 是线性变换 T \pmb{T} T 的定义域、向量空间 V \mathbb{V} V 的维度; dim ⁡ ker ⁡ ( T ) \dim\ker(\pmb{T}) dimker(T) 是核的维度,即零化度; rank T \text{rank}\pmb{T} rankT 是值域的维度,即秩。

证明

证明1:通过矩阵

将线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:VW m × n m\times n m×n 的矩阵 A \pmb{A} A 表示,其中: n = dim ⁡ V , m = dim ⁡ W n = \dim\mathbb{V}, m=\dim\mathbb{W} n=dimV,m=dimW

线性变换 T \pmb{T} T 的核 ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 即为矩阵的零空间(null space) N ( A ) N(\pmb{A}) N(A) ,它的维度即矩阵的零化度,记作 dim ⁡ N ( A ) \dim N(\pmb{A}) dimN(A) 。关于零空间的详细内容,请阅读参考资料 [4]。

值域 R ( T ) R(\pmb{T}) R(T) 即为矩阵的列空间(column space) C ( A ) C(\pmb{A}) C(A)

将矩阵 A \pmb{A} A 化简为行梯形形式,用分块矩阵表示为:

R = [ I r F 0 0 ] \pmb{R}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix} R=[Ir0F0]
其中 R \pmb{R} R 的秩 r = rank R r=\text{rank}\pmb{R} r=rankR F \pmb{F} F r × ( n − r ) r\times(n-r) r×(nr) 阶矩阵。

因为矩阵行运算不改变轴数量,也不改变零空间,所以: rank A = rank R = r \text{rank}\pmb{A}=\text{rank}\pmb{R}=r rankA=rankR=r N ( A ) = N ( R ) N(\pmb{A})=N(\pmb{R}) N(A)=N(R)

根据 R \pmb{R} R 的形状,写出 n × ( n − r ) n\times(n-r) n×(nr) 阶零空间矩阵 P \pmb{P} P

P = [ − F I n − r ] \pmb{P} = \begin{bmatrix}-\pmb{F}\\\pmb{I}_{n-r}\end{bmatrix} P=[FInr]
用上述结果可以计算得到 R P = 0 \pmb{RP}=0 RP=0 ,故确认 P \pmb{P} P 是零空间矩阵。

R P = [ I r F 0 0 ] [ − F I n − r ] = [ − F + F 0 + 0 ] = 0 \pmb{RP}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}-\pmb{F}\\\pmb{I}_{n-r}\end{bmatrix}=\begin{bmatrix}-\pmb{F}+\pmb{F}\\\pmb{0}+\pmb{0}\end{bmatrix}=0 RP=[Ir0F0][FInr]=[F+F0+0]=0
x = [ x 1 x 2 ] \pmb{x}=\begin{bmatrix}\pmb{x}_1\\\pmb{x}_2\end{bmatrix} x=[x1x2] ,其中 x 1 \pmb{x}_1 x1 r r r 维向量, x 2 \pmb{x}_2 x2 n − r n-r nr 维向量,欲使 R x = 0 \pmb{Rx}=\pmb{0} Rx=0 成立,即:

R x = [ I r F 0 0 ] [ x 1 x 2 ] = [ x 1 + F x 2 0 ] = 0 \pmb{Rx}=\begin{bmatrix}\pmb{I}_r&\pmb{F}\\\pmb{0}&\pmb{0}\end{bmatrix}\begin{bmatrix}\pmb{x}_1\\\pmb{x}_2\end{bmatrix}=\begin{bmatrix}\pmb{x}_1+\pmb{Fx}_2\\\pmb{0}\end{bmatrix}=\pmb{0} Rx=[Ir0F0][x1x2]=[x1+Fx20]=0
所以: x 1 = − F x 2 \pmb{x}_1=-\pmb{Fx}_2 x1=Fx2

于是: x = [ − F x 2 x 2 ] = [ − F I n − r ] x 2 = P x 2 \pmb{x}=\begin{bmatrix}-\pmb{Fx}_2\\\pmb{x}_2\end{bmatrix}=\begin{bmatrix}-\pmb{F}\\\pmb{I}_{n-r}\end{bmatrix}\pmb{x}_2=\pmb{Px}_2 x=[Fx2x2]=[FInr]x2=Px2

所以: C ( P ) = N ( R ) C(\pmb{P})=N(\pmb{R}) C(P)=N(R)

即: dim ⁡ N ( R ) = dim ⁡ C ( P ) = n − r \dim N(\pmb{R})=\dim C(\pmb{P})=n-r dimN(R)=dimC(P)=nr 。从而证明:

n = dim ⁡ N ( A ) + rank A n = \dim N(\pmb{A}) + \text{rank}\pmb{A} n=dimN(A)+rankA
m × n m\times n m×n 的矩阵 A \pmb{A} A 的秩 rank A \text{rank}\pmb{A} rankA 和零化度 dim ⁡ N ( A ) \dim N(\pmb{A}) dimN(A) 之和等于 n n n

证明2:线性变换的向量空间分析

dim ⁡ V = n , dim ⁡ ker ⁡ ( T ) = p , p ≤ n \dim\mathbb{V} = n,\dim\ker(\pmb{T})=p,p\le n dimV=n,dimker(T)=p,pn

ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 的一组基底为 { u 1 , ⋯ , u p } \{\pmb{u}_1,\cdots,\pmb{u}_p\} {u1,,up} ,扩充此基底为向量空间 V \mathbb{V} V 的基底 { u 1 , ⋯ , u p , w 1 , ⋯ , w r } \{\pmb{u}_1,\cdots,\pmb{u}_p,\pmb{w}_1,\cdots,\pmb{w}_r\} {u1,,up,w1,,wr} n = p + r n=p+r n=p+r

向量空间 V \mathbb{V} V 中任一向量 v \pmb{v} v 可表示为基底向量的唯一线性组合:

v = a 1 u 1 + ⋯ + a p u p + b 1 w 1 + ⋯ + b r w r \pmb{v}=a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r v=a1u1++apup+b1w1++brwr
因为 T ( u ) = 0 \pmb{T}(\pmb{u})=\pmb0 T(u)=0 ,即 T ( u 1 ) = ⋯ = T ( u p ) = 0 \pmb{T}(\pmb{u}_1)=\cdots=\pmb{T}(\pmb{u}_p)=\pmb0 T(u1)==T(up)=0 (如下图所示)
在这里插入图片描述

所以:

T ( v ) = T ( a 1 u 1 + ⋯ + a p u p + b 1 w 1 + ⋯ + b r w r ) = a 1 T ( u 1 ) + ⋯ + a p T ( u p ) + b 1 T ( w 1 ) + ⋯ + b r T ( w r ) = b 1 T ( w 1 ) + ⋯ + b r T ( w r ) \begin{split}\pmb{T}(\pmb{v})&=\pmb{T}(a_1\pmb{u}_1+\cdots+a_p\pmb{u}_p+b_1\pmb{w}_1+\cdots+b_r\pmb{w}_r)\\&=a_1\pmb{T}(\pmb{u}_1)+\cdots+a_p\pmb{T}(\pmb{u}_p)+b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\\&=b_1\pmb{T}(\pmb{w}_1)+\cdots+b_r\pmb{T}(\pmb{w}_r)\end{split} T(v)=T(a1u1++apup+b1w1++brwr)=a1T(u1)++apT(up)+b1T(w1)++brT(wr)=b1T(w1)++brT(wr)
T ( w 1 ) , ⋯ , T ( w r ) \pmb{T}(\pmb{w}_1),\cdots,\pmb{T}(\pmb{w}_r) T(w1),,T(wr) 张成了值域空间 R ( T ) R(\pmb{T}) R(T)

设: c 1 T ( w 1 ) + ⋯ + c r T ( w r ) = 0 c_1\pmb{T}(\pmb{w}_1)+\cdots+c_r\pmb{T}(\pmb{w}_r)=0 c1T(w1)++crT(wr)=0 ,也可以写成: T ( c 1 w 1 + ⋯ + c r w r ) = 0 \pmb{T}(c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r)=0 T(c1w1++crwr)=0 ,所以 c 1 w 1 + ⋯ + c r w r c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r c1w1++crwr 属于零空间 ker ⁡ ( T ) \ker(\pmb{T}) ker(T)

因为 { u 1 , ⋯ , u p } \{\pmb{u}_1,\cdots,\pmb{u}_p\} {u1,,up} ker ⁡ ( T ) \ker(\pmb{T}) ker(T) 的基底,故可以有如下表达式:

c 1 w 1 + ⋯ + c r w r = d 1 u 1 + ⋯ + d p u p c_1\pmb{w}_1+\cdots+c_r\pmb{w}_r=d_1\pmb{u}_1+\cdots+d_p\pmb{u}_p c1w1++crwr=d1u1++dpup
又因为 { u 1 , ⋯ , u p , w 1 , ⋯ , w r } \{\pmb{u}_1,\cdots,\pmb{u}_p,\pmb{w}_1,\cdots,\pmb{w}_r\} {u1,,up,w1,,wr} V \mathbb{V} V 的基,也就是各个向量之间线性无关,所以上式中的系数都是 0 0 0

T ( w 1 ) , ⋯ , T ( w r ) \pmb{T}(\pmb{w}_1),\cdots,\pmb{T}(\pmb{w}_r) T(w1),,T(wr) 是线性无关的向量集合,是 rank ( T ) \text{rank}(\pmb{T}) rank(T) 的基。

所以: r = dim ⁡ R ( T ) = rank T r=\dim R(\pmb{T})=\text{rank}\pmb{T} r=dimR(T)=rankT

n = p + r n=p+r n=p+r 以及前面的假设,可得:

dim ⁡ V = dim ⁡ ker ⁡ ( T ) + rank T \dim\mathbb{V}=\dim\ker(\pmb{T})+\text{rank}\pmb{T} dimV=dimker(T)+rankT

推论

  • dim ⁡ V > dim ⁡ W \dim\mathbb{V}\gt\dim\mathbb{W} dimV>dimW ,则:

    dim ⁡ ker ⁡ ( T ) = dim ⁡ V − dim ⁡ R ( T ) ≥ dim ⁡ V − dim ⁡ W > 0 \dim\ker(\pmb{T})=\dim\mathbb{V}-\dim R(\pmb{T})\ge\dim\mathbb{V}-\dim\mathbb{W}\gt0 dimker(T)=dimVdimR(T)dimVdimW>0
    即存在非零向量 x ∈ V \pmb{x}\in\mathbb{V} xV 使得 T ( x ) = 0 \pmb{T}(\pmb{x})=\pmb{0} T(x)=0 ,或曰 T \pmb{T} T 不是一对一(因为 T ( 0 ) = 0 \pmb{T}(\pmb{0})=\pmb{0} T(0)=0 )。

  • dim ⁡ V < dim ⁡ W \dim\mathbb{V}\lt\dim\mathbb{W} dimV<dimW ,则:

    dim ⁡ R ( T ) = dim ⁡ V − dim ⁡ ker ⁡ ( T ) ≤ dim ⁡ V < dim ⁡ W \dim R(\pmb{T})=\dim\mathbb{V}-\dim\ker(\pmb{T})\le\dim\mathbb{V}\lt\dim\mathbb{W} dimR(T)=dimVdimker(T)dimV<dimW

    即存在非零向量 y ∈ W y\in\mathbb{W} yW 使得 y ∉ R ( T ) \pmb{y}\notin R(\pmb{T}) y/R(T) ,或曰 T \pmb{T} T 不是满射。

如果用矩阵表述:将线性变换 T : V → W \pmb{T}:\mathbb{V}\to\mathbb{W} T:VW m × n m\times n m×n 的矩阵 A \pmb{A} A 表示,其中: n = dim ⁡ V , m = dim ⁡ W n = \dim\mathbb{V}, m=\dim\mathbb{W} n=dimV,m=dimW

  • n > m n\gt m n>m ,则: dim ⁡ N ( A ) = n − dim ⁡ C ( A ) ≥ n − m > 0 \dim N(\pmb{A})=n-\dim C(\pmb{A})\ge n-m \gt 0 dimN(A)=ndimC(A)nm>0 。即零空间 N ( A ) N(\pmb{A}) N(A) 包含非零向量,或者说 A x = 0 \pmb{Ax}=0 Ax=0 有无穷多组解。
  • n < m n\lt m n<m ,则: dim ⁡ C ( A ) = n − dim ⁡ N ( A ) ≤ n < m \dim C(\pmb{A})=n-\dim N(\pmb{A})\le n \lt m dimC(A)=ndimN(A)n<m 。即列空间 C ( A ) C(\pmb{A}) C(A) 未能充满整个 R m \mathbb{R}^m Rm (或 C m \mathbb{C}^m Cm),或者说 A x = b \pmb{Ax}=\pmb{b} Ax=b 不总是有解。

进一步理解

此定理说明了线性变换前后的空间维数变化。变换后的空间维数如果相对变换前的空间维数减少了——不可能增加,说明变换前的空间经过变换之后出现了“零输出”,零空间 ker ⁡ ( T ) ∈ V \ker(\pmb{T})\in\mathbb{V} ker(T)V 就是产生“零输出”(即零向量)的变换前的向量集合。

“秩—零化度定理”即“维数守恒定律”,

变换前的空间维数 = 零空间的维数 + 变换后的空间维数

参考文献

[1]. Gilbert Strang, The Fundamental Theorem of Linear Algebra, American Mathematical Monthly, 100, 1993, 848-855.

[2]. https://ccjou.wordpress.com/2009/03/23/線性代數基本定理-一

[3]. https://zh.wikipedia.org/wiki/秩-零化度定理


http://www.ppmy.cn/embedded/160230.html

相关文章

图论- DFS/BFS遍历

DFS/BFS遍历 深度优先搜素(DFS)Vertex模版 - 遍历所有节点为什么成环会导致死循环呢临接矩阵和临接表版 - 遍历所有节点遍历所有路径 - 临接矩阵和临接表版 广度优先搜索(BFS)不记录遍历步数的需要记录遍历步数的需要适配不同权重边的 深度优先搜素(DFS) Vertex模版 - 遍历所有…

Ruby Dir 类和方法详解

Ruby Dir 类和方法详解 引言 在Ruby编程语言中&#xff0c;Dir类是一个非常有用的工具&#xff0c;它允许我们与文件系统进行交互&#xff0c;如列出目录内容、检查文件是否存在等。Dir类提供了多种方法&#xff0c;使得文件系统的操作变得简单且高效。本文将详细介绍Ruby中的…

如何理解多态,以及由此引出的抽象类和纯虚函数

文章目录 1. 多态2. 抽象类和纯虚函数 1. 多态 静态多态&#xff1a; 动态多态&#xff1a; #include <iostream> #include <string> using namespace std;// 动物的基类 class Animal { public:Animal(string name) : _name(name) {}virtual void bark() {} …

FinRobot:一个使用大型语言模型的金融应用开源AI代理平台

“FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models” 论文地址&#xff1a;https://arxiv.org/pdf/2405.14767 Github地址&#xff1a;https://github.com/AI4Finance-Foundation/FinRobot 摘要 在金融领域与AI社区间&a…

基于springboot+vue的青少年心理健康教育网站的设计与实现

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

DeepSeek 遭 DDoS 攻击背后:DDoS 攻击的 “千层套路” 与安全防御 “金钟罩”

当算力博弈升级为网络战争&#xff1a;拆解DDoS攻击背后的技术攻防战——从DeepSeek遇袭看全球网络安全新趋势 在数字化浪潮席卷全球的当下&#xff0c;网络已然成为人类社会运转的关键基础设施&#xff0c;深刻融入经济、生活、政务等各个领域。从金融交易的实时清算&#xf…

对比DeepSeek、ChatGPT和Kimi的学术写作撰写引言能力

引言 引言部分引入研究主题&#xff0c;明确研究背景、问题陈述&#xff0c;并提出研究的目的和重要性&#xff0c;最后&#xff0c;概述研究方法和论文结构。 下面我们使用DeepSeek、ChatGPT4以及Kimi辅助引言撰写。 提示词&#xff1a; 你现在是一名[计算机理论专家]&#…

11. 9 构建生产级聊天对话记忆系统:从架构设计到性能优化的全链路指南

构建生产级聊天对话记忆系统:从架构设计到性能优化的全链路指南 关键词: 聊天对话记忆系统、多用户会话管理、LangChain生产部署、Redis记忆存储、高并发对话系统 一、服务级聊天记忆系统核心需求 多用户隔离:支持同时处理数千个独立对话持久化存储:对话历史不因服务重启丢…