《机器学习数学基础》补充资料:柯西—施瓦茨不等式以及相关证明

server/2025/2/14 4:08:43/

机器学习数学基础》 153 页,针对图 3-4-3,提出了一个问题:“点 A A A W \mathbb{W} W 上的一个点的距离有无穷多个。现在,我们最关心的是其中最短的那个,怎么找?请参阅 3.6 节。”并且,在 3.6 节,使用最小二乘法,找到了点 A A A 为终点的向量在 W \mathbb{W} W 上的投影向量,那么这两个向量的距离就是“最短的那个”。

但是,书中没有证明此结论。

本文中将在介绍柯西—施瓦茨不等式的基础上,证明此上述结论。

柯西-施瓦茨不等式(Cauchy–Schwarz inequality),又称施瓦茨不等式或柯西-布尼亚科夫斯基-施瓦茨不等式(Cauchy–Bunyakovsky–Schwarz inequality)不等式,是以奧古斯丁·路易·柯西(Augustin Louis Cauchy),赫尔曼·阿曼杜斯·施瓦茨(Hermann Amandus Schwarz)和维克托·雅科夫列维奇·布尼亚科夫斯基(Виктор Яковлевич Буняковский)来命名的 [ 1 ] ^{[1]} [1]

1. 不等式

1.1 定理 1

已知 a 1 , ⋯ , a n , b 1 , ⋯ , b n a_1,\cdots,a_n,b_1,\cdots,b_n a1,,an,b1,,bn 为实数,则:

( ∑ i = 1 n a i b i ) 2 ≤ ( ∑ i = 1 n a i 2 ) ( ∑ i = 1 n b i 2 ) (1.1) \left(\sum_{i=1}^na_ib_i\right)^2\le\left(\sum_{i=1}^na_i^2\right)\left(\sum_{i=1}^nb_i^2\right) \tag{1.1} (i=1naibi)2(i=1nai2)(i=1nbi2)(1.1)

等式成立的成分必要条件是 a i = λ b i , ( i = 1 , ⋯ , n ) a_i=\lambda b_i,(i=1,\cdots,n) ai=λbi,(i=1,,n)

这是比较常见的柯西不等式形式。

1.2 定理 2

已知 a 1 , ⋯ , a n , b 1 , ⋯ , b n a_1,\cdots,a_n,b_1,\cdots,b_n a1,,an,b1,,bn 为复数,则:

∣ ∑ i = 1 n a i b i ∣ 2 ≤ ( ∑ i = 1 n ∣ a i ∣ 2 ) ( ∑ i = 1 n ∣ b i ∣ 2 ) (1.2) \left|\sum_{i=1}^na_ib_i\right|^2\le\left(\sum_{i=1}^n|a_i|^2\right)\left(\sum_{i=1}^n|b_i|^2\right) \tag{1.2} i=1naibi 2(i=1nai2)(i=1nbi2)(1.2)

等式成立的成分必要条件是 a i = λ b i , ( i = 1 , ⋯ , n ) a_i=\lambda b_i,(i=1,\cdots,n) ai=λbi,(i=1,,n) λ \lambda λ 为一复数。

若令 a = [ a 1 ⋯ a n ] , b = [ b 1 ⋯ b n ] \pmb{a}=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix},\pmb{b}=\begin{bmatrix}b_1&\cdots&b_n\end{bmatrix} a=[a1an],b=[b1bn] ,则柯西不等式可表示为:

∣ a ⋅ b ∣ ≤ ∥ a ∥ ∥ b ∥ (1.3) |\pmb{a}\cdot\pmb{b}|\le\begin{Vmatrix}\pmb{a}\end{Vmatrix}\begin{Vmatrix}\pmb{b}\end{Vmatrix}\tag{1.3} ab a b (1.3)

1.3 定理 3

已知 A = ( a i j ) \pmb{A}=(a_{ij}) A=(aij) 是正定对称矩阵, x 1 , ⋯ , x n ; y 1 , ⋯ , y n x_1,\cdots,x_n;y_1,\cdots,y_n x1,,xn;y1,,yn 为任意实数(或复数),则:

∣ ∑ i , j = 1 n a i j x i y j ∣ ≤ ∑ i , j = 1 n a i j x i x j ∑ i , j = 1 n a i j y i y j (1.4) \left|\sum_{i,j=1}^na_{ij}x_iy_j\right|\le\sqrt{\sum_{i,j=1}^na_{ij}x_ix_j}\sqrt{\sum_{i,j=1}^na_{ij}y_iy_j}\tag{1.4} i,j=1naijxiyj i,j=1naijxixj i,j=1naijyiyj (1.4)

对(1.4)式,可以用向量表示:

  • ζ ⋅ η = x A y = ∑ i , j = 1 n a i j x i y j \pmb{\zeta}\cdot\pmb{\eta}=\pmb{xAy}=\sum_{i,j=1}^na_{ij}x_iy_j ζη=xAy=i,j=1naijxiyj
  • ∥ ζ ∥ 2 = ζ ⋅ ζ = x A x T = ∑ i , j = 1 n a i j x i x j \begin{Vmatrix}\zeta\end{Vmatrix}^2=\pmb{\zeta\cdot\zeta}=\pmb{xAx}^T=\sum_{i,j=1}^na_{ij}x_ix_j ζ 2=ζζ=xAxT=i,j=1naijxixj
  • ∥ η ∥ 2 = η ⋅ η = y A y T = ∑ i , j = 1 n a i j y i y j \begin{Vmatrix}\eta\end{Vmatrix}^2=\pmb{\eta\cdot\eta}=\pmb{yAy}^T=\sum_{i,j=1}^na_{ij}y_iy_j η 2=ηη=yAyT=i,j=1naijyiyj

1.4 定理 4

已知 a i , b i ∈ C a_i,b_i\in\mathbb{C} ai,biC ,则:

∣ ∑ i , j = 1 ∞ a i b j ∣ ≤ ( ∑ i = 1 ∞ ∣ a i ∣ 2 ) 1 2 ( ∑ i = 1 ∞ ∣ b i ∣ 2 ) 1 2 (1.5) |\sum_{i,j=1}^{\infty}a_ib_j|\le\left(\sum_{i=1}^{\infty}|a_i|^2\right)^{\frac{1}{2}}\left(\sum_{i=1}^{\infty}|b_i|^2\right)^{\frac{1}{2}} \tag{1.5} i,j=1aibj(i=1ai2)21(i=1bi2)21(1.5)

等式成立的充分必要条件是 a i = λ b i , ( i = 1 , ⋯ , λ ∈ C ) a_i=\lambda b_i,(i=1,\cdots,\lambda\in\mathbb{C}) ai=λbi,(i=1,,λC)

将定理 4 推广到积分形式,即为柯西—施瓦茨不等式

1.5 定理 5

已知 f , g f,g f,g 是区间 [ a , b ] [a,b] [a,b] 上的连续函数, f , g ∈ C [ a , b ] f,g\in\mathbb{C}[a,b] f,gC[a,b] ,则:

∣ ∫ a b f ( x ) g ( x ) d x ∣ ≤ ∫ a b ∣ f ( x ) ∣ 2 d x ∫ a b ∣ g ( x ) ∣ 2 d x (1.7) \begin{vmatrix}\int_a^bf(x)g(x)dx\end{vmatrix}\le\int_a^b|f(x)|^2dx\int_a^b|g(x)|^2dx\tag{1.7} abf(x)g(x)dx abf(x)2dxabg(x)2dx(1.7)

(1.7)式称为柯西-施瓦茨不等式(Cauchy–Schwarz inequality)、施瓦茨不等式或柯西-布尼亚科夫斯基-施瓦茨不等式(Cauchy–Bunyakovsky–Schwarz inequality)。此不等式是乌克兰数学家 Viktor Yakovlerich Bunyakovsky(1804-1889)与德国数学家(原籍波兰)KarlHerman Amandus Schwarz (1843-1921),分别于1861年和1885年发现。虽然布尼亚克夫斯基比施瓦茨先发现了这个不等式,而在很多数学教材中,常常把他的名字忽略——恐怕不是因为他名字太长,更可能的原因是 19 世纪,数学研究的中心在德国、法国,不在这个中心的人所作出的发现,就很难引起重视。这种现象在当今也难免。

1.6 定理 6

已知 a 1 , ⋯ , a n ; b 1 , ⋯ , b n a_1,\cdots,a_n;b_1,\cdots,b_n a1,,an;b1,,bn 为任意复数,且 p , q ≥ 1 , 1 p + 1 q = 1 p,q\ge1,\frac{1}{p}+\frac{1}{q}=1 p,q1p1+q1=1 ,则:

∣ ∑ i = 1 n a i b i ∣ ≤ ( ∑ i = 1 n ∣ a i ∣ p ) 1 p ( ∑ i = 1 n ∣ b i ∣ q ) 1 q (1.9) |\sum_{i=1}^{n}a_ib_i|\le\left(\sum_{i=1}^{n}|a_i|^p\right)^{\frac{1}{p}}\left(\sum_{i=1}^{n}|b_i|^q\right)^{\frac{1}{q}} \tag{1.9} i=1naibi(i=1naip)p1(i=1nbiq)q1(1.9)

(1.9)式称为赫尔德不等式 (H ̈older不等式),如果推广到积分形式,就是下面的定理7。

1.7 定理 7

已知 f , g ∈ C [ a , b ] , p , q ≥ 1 , 1 p + 1 q = 1 f,g\in\mathbb{C}[a,b],p,q\ge1,\frac{1}{p}+\frac{1}{q}=1 f,gC[a,b]p,q1p1+q1=1 ,则:

∣ ∫ a b f ( x ) g ( x ) d x ∣ ≤ ( ∫ a b ∣ f ( x ) ∣ p d x ) 1 p ( ∫ a b ∣ g ( x ) ∣ q d x ) 1 q (1.10) \begin{vmatrix}\int_a^bf(x)g(x)dx\end{vmatrix}\le\left(\int_a^b|f(x)|^pdx\right)^{\frac{1}{p}}\left(\int_a^b|g(x)|^qdx\right)^{\frac{1}{q}}\tag{1.10} abf(x)g(x)dx (abf(x)pdx)p1(abg(x)qdx)q1(1.10)

还可以写成更一般的形式,定理8所示。

1.8 定理 8

已知 f 1 , ⋯ , f n ∈ C [ a , b ] f_1,\cdots,f_n\in\mathbb{C}[a,b] f1,,fnC[a,b] ,且 1 p 1 + 1 p 2 + ⋯ + 1 p n = 1 , p i ≥ 1 \frac{1}{p_1}+\frac{1}{p_2}+\cdots+\frac{1}{p_n}=1,p_i\ge1 p11+p21++pn1=1,pi1 ,则:

∣ ∫ a b f 1 ( x ) f 2 ( x ) ⋯ f n ( x ) d x ∣ ≤ ( ∫ a b ∣ f 1 ( x ) ∣ p 1 d x ) 1 p 1 ⋯ ( ∫ a b ∣ f n ( x ) ∣ p n d x ) 1 p n (1.11) \begin{vmatrix}\int_a^bf_1(x)f_2(x)\cdots f_n(x)dx\end{vmatrix}\le\left(\int_a^b|f_1(x)|^{p_1}dx\right)^{\frac{1}{p_1}}\cdots\left(\int_a^b|f_n(x)|^{p_n}dx\right)^{\frac{1}{p_n}}\tag{1.11} abf1(x)f2(x)fn(x)dx (abf1(x)p1dx)p11(abfn(x)pndx)pn1(1.11)

德国数学家赫尔德(Otto Lud-wig H ̈older (1859-1937))在1885年研究傅里叶技术收敛性问题时,发现了上述不等式。

赫尔德不等式,也称为赫尔德—里斯不等式(H ̈older-Riesz)。

p = q = 2 p=q=2 p=q=2 ,赫尔德不等式就退化为柯西—施瓦茨不等式。

2. 余弦定理

对柯西—施瓦茨不等式的最直接理解,可以通过余弦定理,如图所示:
在这里插入图片描述

由余弦定理,得:

∣ a ∣ 2 + ∣ b ∣ 2 − ∣ a − b ∣ 2 = 2 ∣ a ∣ ∣ b ∣ cos ⁡ θ (2.1) |\pmb{a}|^2+|\pmb{b}|^2-|\pmb{a}-\pmb{b}|^2=2|\pmb{a}||\pmb{b}|\cos\theta \tag{2.1} a2+b2ab2=2∣a∣∣bcosθ(2.1)

所以: a ⋅ b = ∣ a ∣ ∣ b ∣ cos ⁡ θ \pmb{a}\cdot\pmb{b}=|\pmb{a}||\pmb{b}|\cos\theta ab=a∣∣bcosθ

因为: ∣ cos ⁡ θ ∣ ≤ 1 |\cos\theta|\le1 cosθ1 ,可得:

∣ a ⋅ b ∣ ≤ ∣ a ∣ ∣ b ∣ (2.2) |\pmb{a}\cdot\pmb{b}|\le|\pmb{a}||\pmb{b}|\tag{2.2} aba∣∣b(2.2)

亦即得到了(1.3)式。

3. 柯西—施瓦茨不等式的证明

3.1 判别式

这是一种最常见的证明方法。

向量 a , b \pmb{a},\pmb{b} a,b 不平行,所以: c = b − λ a , λ ∈ R \pmb{c}=\pmb{b}-\lambda\pmb{a},\lambda\in\mathbb{R} c=bλa,λR

计算 c \pmb{c} c 的长度:

∣ c ∣ 2 = c ⋅ c = ( b − λ a ) ⋅ ( b − λ a ) = b ⋅ b − 2 a ⋅ b λ + a ⋅ a λ 2 = ∣ a ∣ 2 λ 2 − 2 a ⋅ b λ + ∣ b ∣ 2 (3.1) \begin{split}|\pmb{c}|^2&=\pmb{c\cdot c}=(\pmb{b}-\lambda\pmb{a})\cdot(\pmb{b}-\lambda\pmb{a})\\&=\pmb{b\cdot b}-2\pmb{a\cdot b}\lambda+\pmb{a\cdot a}\lambda^2\\&=|\pmb{a}|^2\lambda^2-2\pmb{a}\cdot\pmb{b}\lambda+|\pmb{b}|^2\end{split} \tag{3.1} c2=cc=(bλa)(bλa)=bb2abλ+aaλ2=a2λ22abλ+b2(3.1)

将(3.1)式视为 λ \lambda λ 的一元二次方程。由于 ∣ c ∣ 2 ≥ 0 |\pmb{c}|^2\ge0 c20 ,且 ∣ a ∣ 2 ≥ 0 |\pmb{a}|^2\ge0 a20 。所以(3.1)式中的二次函数是开口向上的抛物线,且与横轴无交点( ∣ c ∣ 2 = 0 |\pmb{c}|^2=0 c2=0 是极限),即 λ \lambda λ 没有实根,所以判别式小于等于 0 0 0

Δ = ( 2 a ⋅ b ) 2 − 4 ∣ a ∣ 2 ∣ b ∣ 2 ≤ 0 \Delta=(2\pmb{a\cdot b})^2-4|\pmb{a}|^2|\pmb{b}|^2\le0 Δ=(2ab)24∣a2b20

所以: ∣ a ⋅ b ∣ ≤ ∣ a ∣ ∣ b ∣ |\pmb{a}\cdot\pmb{b}|\le|\pmb{a}||\pmb{b}| aba∣∣b

3.2 投影——最短距离

前述证明中,避免了余弦定理中的角度,使用了向量的点积,对任意维的向量都适用。

由前述假设,可得 λ \lambda λ

λ = a ⋅ b ∣ a ∣ 2 , c = b − λ a = b − a ⋅ b ∣ a ∣ 2 a (3.2) \lambda=\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}, \quad\pmb{c}=\pmb{b}-\lambda\pmb{a}=\pmb{b}-\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\pmb{a} \tag{3.2} λ=a2ab,c=bλa=ba2aba(3.2)

将(3.2)式代入到(3.1)式,则:

0 ≤ ∣ c ∣ 2 = ∣ a ∣ 2 ( a ⋅ b ∣ a ∣ 2 ) 2 − 2 a ⋅ b ( a ⋅ b ∣ a ∣ 2 ) + ∣ b ∣ 2 (3.3) 0\le|\pmb{c}|^2=|\pmb{a}|^2\left(\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\right)^2-2\pmb{a\cdot b}\left(\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\right)+|\pmb{b}|^2 \tag{3.3} 0c2=a2(a2ab)22ab(a2ab)+b2(3.3)

整理得: ( a ⋅ b ) 2 ≤ ∣ a ∣ 2 ∣ b ∣ 2 (\pmb{a\cdot b})^2\le|\pmb{a}|^2|\pmb{b}|^2 (ab)2a2b2

即得到(1.3)式。

如何理解(3.2)式中的 λ \lambda λ

a ⋅ c = a ⋅ ( b − λ a ) = a ⋅ b − λ ∣ a ∣ 2 \pmb{a\cdot c} = \pmb{a}\cdot(\pmb{b}-\lambda\pmb{a})=\pmb{a\cdot b}-\lambda|\pmb{a}|^2 ac=a(bλa)=abλa2

因此,可以有如下关系:

a ⋅ c = 0 ⟺ a ⊥ c ⟺ λ = a ⋅ b ∣ a ∣ 2 \pmb{a\cdot c}=0\quad\Longleftrightarrow\quad \pmb{a}\bot\pmb{c} \quad\Longleftrightarrow\quad \lambda=\frac{\pmb{a\cdot b}}{|\pmb{a}|^2} ac=0acλ=a2ab

由此可知, λ \lambda λ 的选择,恰好是能够让 λ a \lambda\pmb{a} λa b \pmb{b} b a \pmb{a} a 上的投影, ∣ c ∣ |\pmb{c}| c 则是 b \pmb{b} b a \pmb{a} a 的最短距离。其关系如下图所示:
在这里插入图片描述

λ \lambda λ 还称为拉格朗日乘子(Largrange multiplier)。

参考文献

[1]. Wikipedia: Cauchy-Schwarz inequality

[2]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社,2023.


http://www.ppmy.cn/server/167515.html

相关文章

国产编辑器EverEdit - 书签功能介绍

1 书签 1.1 应用场景 当用户在文档中多处进行编辑时,为了方便在多个编辑位置跳转,使用书签功能可以方便记录各个位置。 1.2 使用方法 1.2.1 切换书签 设置或取消光标所在行的书签 方法1:选择主菜单查找 -> 书签 -> 切换书签 方法2&…

AI写代码工具如何革新前端团队协作?

近年来,AI技术对前端开发领域的影响日益显著,深刻地改变着我们的工作方式。在追求更高效、高质量产品的同时,团队协作的重要性也愈发凸显。本文将探讨AI写代码工具如何提升前端团队协作效率,最终提升产品质量和用户体验。 AI时代…

Redis 内存回收机制

Redis 是一个基于内存的键值存储系统,为了避免内存耗尽,Redis 提供了多种内存回收机制。以下是 Redis 内存回收的主要方式: 1. 过期键删除 Redis 支持为键设置过期时间,过期后会自动删除键以释放内存。 1.1 设置过期时间 SET key…

用easyExcel如何实现?

要使提供的 ExcelModelListener 类来解析 Excel 文件并实现批量存储数据库的功能,需要结合 EasyExcel 库来读取 Excel 数据。具体来说,可以使用 EasyExcel.read() 方法来读取 Excel 文件,并指定 ExcelModelListener 作为事件监听器。 下面是…

通义灵码 2.0 全新升级,阿里云正式推出繁星计划

通义灵码 AI 程序员的出现,正在颠覆软件工程师的工作方式,从 AI 辅助编程走向人与 AI 协同编程。不仅能让工程师专注于更具创新的研发任务,更将实现以前无法想象的创新落地。 在通义灵码2.0发布会上,阿里云云原生应用平台负责人丁…

HTML之JavaScript函数声明

HTML之JavaScript函数声明 1. function 函数名(){}2. var 函数名 function(){}<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1…

Docker 系列之 docker-compose 容器编排详解

文章目录 前言一、Docker-compose简介二、Docker-compose 的安装三、Docker-compose卸载四、Docker-compose常用命令4.1 Docker-compose命令格式4.2 docker-compose up4.3 docker-compose ps4.4 docker-compose stop4.5 docker-compose -h4.6 docker-compose down4.7 docker-co…

结构形模式---适配器模式

适配器模式是一种结构形模式&#xff0c;主要用于不同在两个互不兼容的类或者库之间增加一个转换。 适配器模式的实现由两种方式&#xff0c;一种是适配器对象&#xff0c;一种是适配器类。 适配器是对象是将第三方接口通过对象调用引入到适配器中。 适配器类是通过多继承将…