ML算法——线代预备知识随笔【机器学习】

news/2024/11/16 5:31:01/

文章目录

  • 数学预备知识
    • 3、线性代数
      • 3.1、矩阵奇异值分解(SVD)
      • 3.2、广义逆矩阵(Moore-Penrose )
      • 3.3、数据白化(Data Whitening)
      • 3.4、向量导数
    • 4、其它

数学预备知识

3、线性代数

3.1、矩阵奇异值分解(SVD)

矩阵分解的本质是将原本复杂的矩阵分解成对应的几个简单矩阵的乘积的形式。使得矩阵分析起来更加简单。很多矩阵都是不能够进行特征值分解的。这种情况下,如果我们想通过矩阵分解的形式将原本比较复杂的矩阵问题分解成比较简单的矩阵相乘的形式,会对其进行奇异值分解

将普通矩阵分解为奇异向量奇异值,对于一个m x n的矩阵A,其奇异值分解可以表示为:

A = U Σ V T A = UΣV^T A=UΣVT

其中,U是一个m x m的正交矩阵,Σ 是一个m x n的矩阵,其对角线上的元素称为奇异值,Σ 不一定是方阵V是一个n x n的正交矩阵。

Σ对角线上的元素被称为A的奇异值。

U的列向量:左奇异向量

V的列向量:右奇异向量

对角阵不是方阵,这说法头一次见,如何确定Σ的元素?

A A T 、 A T A AA^T、A^TA AATATA的特征值相同,假设特征值为 λ 1 、 λ 2 、 λ 3 λ_1、λ_2、λ_3 λ1λ2λ3,Σ中元素为 σ 1 、 σ 2 、 σ 3 σ_1、σ_2、σ_3 σ1σ2σ3

σ 1 = λ 1 σ_1 = \sqrt{\lambda_1} σ1=λ1

同理:

σ 2 = λ 2 σ_2 = \sqrt{\lambda_2} σ2=λ2 σ 3 = λ 3 σ_3 = \sqrt{\lambda_3} σ3=λ3

求得的σ只选取非零的。

如何确定Σ主对角线位置?

【这里我反复被网上的对角阵可以不是方阵?非方阵如何确定对角线位置?的各种矛盾回答搞晕了,奇异值分解的博客很少提到σ的排列问题,浪费了很多时间,最终在周志华的《机器学习》附录中找到了准确描述。视频在数学预备知识这部分讲得稀烂,没有复看的价值😒。】

Σ i i = σ i Σ_{ii} = σ_i Σii=σi,其他未知元素均为0,常将奇异值按降序排列,确保Σ的唯一性。

如何求解U?

求解 A A T AA^T AAT的特征值 λ \lambda λ,进而求得特征向量 μ,组成矩阵 U 。

如何求解V?

求解 A T A A^TA ATA的特征值 λ \lambda λ,进而求得特征向量 μ,组成矩阵 V 。

如果A是正定矩阵可以进行特征值分解,奇异值分解又是怎样的结果?

若矩阵A可以通过正交变换法实现相似对角化 x T A x = Λ 、 A = x Λ x T x^TAx=Λ 、A=xΛx^T xTAx=ΛA=xΛxT,那么:

u = x

Σ = Λ

V T = x T V^T = x^T VT=xT

此时,奇异值分解结果与正交变换法实现的相似对角化完全一致。

3.2、广义逆矩阵(Moore-Penrose )

逆矩阵的推广,对任一 m×n 阶矩阵 A,都存在惟一的 n×m 阶矩阵 X,它满足:

  1. AXX = X
  2. XAX = X
  3. (AX)* = AX
  4. (XA)* = XA

则称 X 为 A 的 Moore-Penrose 广义逆矩阵,简称 M-P 逆,记为 A⁺。

计算 A + A^+ A+的实际算法基于以下公式:

A + = V Σ + U T A^+ = VΣ^+U^T A+=VΣ+UT (奇异值分解)

Σ + Σ+ Σ+ 由 Σ 转置得到。

广义逆矩阵有什么用?

判断线性方程组有解,当遇到线性方程组 Ax=b 中求解x困难的情况,可以使用广义逆矩阵来判断。

Ax = b,解存在的条件为:

当且仅当 A + b A^+b A+b为其中一个解,即 A A + b = b AA^+b = b AA+b=b

广义逆矩阵在机器学习中有什么用?

  1. 最小二乘问题:在机器学习中,最小二乘问题是一种常见的问题,例如在线性回归中,目标是最小化预测值与实际值之间的误差。在这种情况下,可以使用广义逆矩阵来求解最小二乘问题,从而提高模型的拟合效果。
  2. 矩阵逆的估计:当遇到矩阵逆难以直接计算的情况时,可以使用广义逆矩阵来估计矩阵的逆。例如,在PageRank算法中,可以通过使用广义逆矩阵来计算网站的PageRank值。
  3. 特征值和特征向量的求解:在机器学习中,特征值和特征向量通常用于对数据进行降维或进行模型训练。当遇到求解矩阵的特征值和特征向量困难的情况时,可以使用广义逆矩阵来求解。
  4. 隐式建模:在一些机器学习问题中,需要对数据进行建模。但是,有时数据无法直接建模或无法通过常规方法求解。在这种情况下,可以使用广义逆矩阵来拟合数据,从而实现隐式建模。

3.3、数据白化(Data Whitening)

观测数据x组成实对称矩阵 x x T xx^T xxT,其特征向量组成U, x x T = U T Σ U xx^T = U^TΣU xxT=UTΣU

令:

x ~ = U T Σ − 0.5 U ⋅ x \widetilde{x} = U^TΣ^{-0.5}U · x x =UTΣ0.5Ux

则:

x ~ x ~ T = ( U T Σ − 0.5 U ⋅ x ) ( U T Σ − 0.5 U ⋅ x ) T \widetilde{x}\widetilde{x}^{T} = (U^TΣ^{-0.5}U · x)(U^TΣ^{-0.5}U · x)^T x x T=(UTΣ0.5Ux)(UTΣ0.5Ux)T

= ( U T Σ − 0.5 U ⋅ x ) ( x T U T Σ − 0.5 U ) = (U^TΣ^{-0.5}U · x)(x^T U^TΣ^{-0.5}U ) =(UTΣ0.5Ux)(xTUTΣ0.5U)

= U T Σ − 0.5 U ⋅ ( x x T ) U T Σ − 0.5 U =U^TΣ^{-0.5}U · (xx^T) U^TΣ^{-0.5}U =UTΣ0.5U(xxT)UTΣ0.5U

= U T Σ − 0.5 U ⋅ ( U T Σ U ) U T Σ − 0.5 U =U^TΣ^{-0.5}U · (U^TΣU) U^TΣ^{-0.5}U =UTΣ0.5U(UTΣU)UTΣ0.5U

= I =I =I

在机器学习中数据白化的意义?

数据白化是一种有用的数据预处理技术,数据白化的主要作用是使数据符合正态分布,从而更易于使用传统的机器学习算法进行处理。在数据白化之后,数据的均值和方差都为零,并且各维度之间的相关性为零。这有助于消除数据中的冗余信息。数据白化还可以提高算法的收敛速度和训练效果。因为数据白化可以降低数据之间的相关性,所以可以减少算法的过拟合风险,并且使算法更容易找到最优解。

3.4、向量导数

向量矩阵求导,本质是多元函数求导,矩阵比多元函数,在表达上更简洁方便。

在这里插入图片描述

向量偏导公式

∂ A x ∂ x = A T \frac{∂Ax}{∂x} = A^T xAx=AT

∂ A x ∂ x T = A \frac{∂Ax}{∂x^T} = A xTAx=A

∂ ( x T A ) ∂ x = A \frac{∂(x^TA)}{∂x} = A x(xTA)=A

x为列向量,A为矩阵。

线性回归中直接用。

求导结果的布局?

标量、向量、矩阵 对 标量、向量、矩阵 求导,共9种情况。

分子布局,分母布局两种布局。

标量对向量的求导

分母布局。

y = x T A x y = x^TAx y=xTAx

y = x T A x y = x^TAx y=xTAx 结果为1 * 1,标量

∂ y ∂ x = ∂ ( x T A x ) ∂ x = ( A + A T ) ⋅ x \frac{∂y}{∂x} = \frac{∂(x^TAx)}{∂x} = (A + A^T)·x xy=x(xTAx)=(A+AT)x

若 A 为对称阵,则有:

∂ ( x T A x ) ∂ x = 2 A x \frac{∂(x^TAx)}{∂x} =2Ax x(xTAx)=2Ax

4、其它

奇异矩阵

若A可逆,则称A为非奇异方阵,也就说若A不是满秩,则为奇异矩阵。

I n I_n In

单位矩阵。


http://www.ppmy.cn/news/561153.html

相关文章

Linux下MySQL的安装与使用

文章目录 安装前说明Linux系统及工具的准备查看是否安装过MySQLMySQL的卸载 MySQL的Linux版安装下载MySQL指定版本CentOS7下检查MySQL依赖CentOS7下MySQL安装过程 查看MySQL版本服务的初始化启动MySQL,查看状态查看MySQL服务是否自启动 MySQL登录设置远程登录 安装前…

JQuery框架

文章目录 JQuery框架找到某标签,读或设置其style、属性css,attr 设置style事件驱动单击添加、取消边框绑定只响应一次鼠标悬停在标题显示内容,否则不显示 选择器过滤器下标过滤器:基本选择器:下标过滤器隔行换色 属性过滤器: 基本…

福州大学2021知识产权线上课程期末考试答案

网课期末试卷-客观题部分 1单选(2分) 世界上第一部著作权法是1710年生效的( )。 A.《联邦著作权法》 B.《版权法》 C.《安娜女王法》 D.《作者权法》 2单选(2分) 下列选项中,属于作品构成要件的是( )。 A.新…

c是过程化语言吗数据库,关于SQL错误的是()A、所有数据库的公共语言B、非过程化的C、统一的语言D、所有用SQL缩写的程序都...

关于SQL错误的是()A、所有数据库的公共语言B、非过程化的C、统一的语言D、所有用SQL缩写的程序都 更多相关问题 [多选] 在彩色电视机遥控系统中,属于模拟量控制的有()等几种。 [多选] 在色度信号记录处理中,家用录像机一般都要对色度信号经过()等处理。 …

Q1营收、净利双提速,为什么海信还要打出“造车”牌?

4月28日,港股家电巨头海信家电公布了新一季的财务业绩报告。 单从财报数据的基本面来看,2021年一季度海信家电营收、净利实现了新增长,符合市场及分析师的预期。 受此消息影响,4月29日港股开盘,海信家电股价走势较好…

2022-2028全球与中国涡旋压缩机市场现状及未来发展趋势

2021年全球涡旋压缩机市场销售额达到了47亿美元,预计2028年将达到61亿美元,年复合增长率(CAGR)为3.9%(2022-2028)。地区层面来看,中国市场在过去几年变化较快,2021年市场规模为 百万…

昔日的“国民奶茶”,今天“时代的眼泪”?

香飘飘为何不香了?! 如果将时间指针拉回到2004年,在那个杯装奶茶市场尚且空白的时代,香飘飘凭借着速溶奶茶的品牌定位快速火遍大江南北。再加上加上消费趋势的助推,香飘飘一度傲立于市场之巅,深深根植在无…

医院his系统机房服务器,医院信息中心机房如何建设

随着医院信息化的不断向前发展,对医院信息系统越来越依赖,机房是信息系统的心脏,是保证网络核心设备、服务器、存储设备正常、不间断运行的基础。那么,医院信息中心机房如何建设呢? 医院信息中心机房如何建设1、中心机房选址 中心机房的选址应按照相关国家标准综合考虑,应…