机器学习数学基础:21.特征值与特征向量

ops/2025/2/14 3:43:56/

一、引言

在现代科学与工程的众多领域中,线性代数扮演着举足轻重的角色。其中,特征值、特征向量以及相似对角化的概念和方法,不仅是线性代数理论体系的核心部分,更是解决实际问题的有力工具。无论是在物理学中描述系统的振动模式,还是在计算机科学里进行数据降维与图像处理,它们都发挥着关键作用。本教程将深入且全面地对这些内容展开讲解,旨在帮助读者透彻理解并熟练运用相关知识。

二、基础知识准备

(一)对角矩阵的高次幂计算

在开启特征值与特征向量的探索之旅前,我们先来聚焦对角矩阵的高次幂运算。对角矩阵是一种结构特殊的方阵,其显著特点是主对角线以外的所有元素均为零。用数学语言描述,对于一个 n n n阶对角矩阵 Λ = ( λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ) \Lambda \ = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix} Λ = λ1000λ2000λn ,在计算它的 N N N次幂 Λ N \Lambda^N ΛN时,我们可以遵循一个简洁的规则:直接将主对角线上的各个元素替换为它们各自的 N N N次幂。即 Λ N = ( λ 1 N 0 ⋯ 0 0 λ 2 N ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n N ) \Lambda^N \ = \begin{pmatrix} \lambda_1^N & 0 & \cdots & 0 \\ 0 & \lambda_2^N & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^N \end{pmatrix} ΛN = λ1N000λ2N000λnN

为了更直观地理解,我们来看几个具体例子。当 N = 2 N \ = 2 N =2时, Λ 2 = ( λ 1 2 0 ⋯ 0 0 λ 2 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n 2 ) \Lambda^2 \ = \begin{pmatrix} \lambda_1^2 & 0 & \cdots & 0 \\ 0 & \lambda_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^2 \end{pmatrix} Λ2 = λ12000λ22000λn2 ;当 N = 3 N \ = 3 N =3时, Λ 3 = ( λ 1 3 0 ⋯ 0 0 λ 2 3 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n 3 ) \Lambda^3 \ = \begin{pmatrix} \lambda_1^3 & 0 & \cdots & 0 \\ 0 & \lambda_2^3 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^3 \end{pmatrix} Λ3 = λ13000λ23000λn3 。这种计算方式的便捷性,源于对角矩阵自身独特的结构,使得高次幂的计算变得相对简单直接。

(二)对角矩阵的乘法

在矩阵乘法的运算体系中,对角矩阵的乘法展现出独特的简便性。假设我们有两个 n n n阶对角矩阵 Λ 1 = ( a 1 0 ⋯ 0 0 a 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n ) \Lambda_1 \ = \begin{pmatrix} a_1 & 0 & \cdots & 0 \\ 0 & a_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_n \end{pmatrix} Λ1 = a1000a2000an Λ 2 = ( b 1 0 ⋯ 0 0 b 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ b n ) \Lambda_2 \ = \begin{pmatrix} b_1 & 0 & \cdots & 0 \\ 0 & b_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & b_n \end{pmatrix} Λ2 = b1000b2000bn

它们的乘积 Λ 1 Λ 2 \Lambda_1\Lambda_2 Λ1Λ2的计算过程如下:根据矩阵乘法的定义,对于一般矩阵 C = A B C \ = AB C =AB C C C的元素 c i j = ∑ k = 1 n a i k b k j c_{ij} \ = \sum_{k \ = 1}^{n}a_{ik}b_{kj} cij =k =1naikbkj。但对于对角矩阵 Λ 1 \Lambda_1 Λ1 Λ 2 \Lambda_2 Λ2,由于非对角元素均为 0 0 0,在计算乘积矩阵 Λ 1 Λ 2 \Lambda_1\Lambda_2 Λ1Λ2的元素时,只有 i = j i \ = j i =j的位置上的元素不为 0 0 0。具体来说, ( Λ 1 Λ 2 ) i i = a i b i (\Lambda_1\Lambda_2)_{ii} \ = a_ib_i (Λ1Λ2)ii =aibi,而 ( Λ 1 Λ 2 ) i j = 0 (\Lambda_1\Lambda_2)_{ij} \ = 0 (Λ1Λ2)ij =0 i ≠ j i \neq j i=j)。所以 Λ 1 Λ 2 = ( a 1 b 1 0 ⋯ 0 0 a 2 b 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n b n ) \Lambda_1\Lambda_2 \ = \begin{pmatrix} a_1b_1 & 0 & \cdots & 0 \\ 0 & a_2b_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_nb_n \end{pmatrix} Λ1Λ2 = a1b1000a2b2000anbn ,即只需将对应位置的元素相乘即可得到乘积矩阵的元素。

三、特征值与特征向量的求解

(一)求解方法概述

对于一个 n n n阶方阵 A A A,我们通过构建并求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0来获取其特征值 λ \lambda λ。这里的 E E E代表 n n n阶单位矩阵, ∣ A − λ E ∣ \vert A - \lambda E\vert AλE是一个关于 λ \lambda λ n n n次多项式,被称为矩阵 A A A的特征多项式。

从行列式的计算角度来看, A − λ E A - \lambda E AλE是将矩阵 A A A的主对角线元素分别减去 λ \lambda λ后得到的矩阵,然后计算这个新矩阵的行列式。例如,对于二阶矩阵 A = ( a 11 a 12 a 21 a 22 ) A \ = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix} A =(a11a21a12a22) A − λ E = ( a 11 − λ a 12 a 21 a 22 − λ ) A - \lambda E \ = \begin{pmatrix} a_{11} - \lambda & a_{12} \\ a_{21} & a_{22} - \lambda \end{pmatrix} AλE =(a11λa21a12a22λ),其特征多项式 ∣ A − λ E ∣ = ( a 11 − λ ) ( a 22 − λ ) − a 12 a 21 \vert A - \lambda E\vert \ = (a_{11} - \lambda)(a_{22} - \lambda) - a_{12}a_{21} AλE =(a11λ)(a22λ)a12a21,这是一个关于 λ \lambda λ的二次多项式。

求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0,本质上就是求解这个 n n n次多项式方程的根。这些根就是矩阵 A A A的特征值,在求解过程中,可能会出现重根的情况。例如,对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),其特征多项式为 ∣ A − λ E ∣ = ∣ 2 − λ 1 1 2 − λ ∣ = ( 2 − λ ) 2 − 1 = λ 2 − 4 λ + 3 \vert A - \lambda E\vert \ = \begin{vmatrix} 2 - \lambda & 1 \\ 1 & 2 - \lambda \end{vmatrix} \ = (2 - \lambda)^2 - 1 \ = \lambda^2 - 4\lambda + 3 AλE = 2λ112λ  =(2λ)21 =λ24λ+3。令 λ 2 − 4 λ + 3 = 0 \lambda^2 - 4\lambda + 3 \ = 0 λ24λ+3 =0,通过因式分解得到 ( λ − 1 ) ( λ − 3 ) = 0 (\lambda - 1)(\lambda - 3) \ = 0 (λ1)(λ3) =0,解得特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3,这里特征值没有重根。但对于一些特殊矩阵,可能会出现如二重根、三重根等情况。

(二)特征向量的求解

当我们成功求得矩阵 A A A的特征值 λ \lambda λ后,接下来要做的是将每个特征值 λ \lambda λ代入齐次线性方程组 ( A − λ E ) X = 0 (A - \lambda E)X \ = 0 (AλE)X =0,以此来求解对应的特征向量 X X X

以矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112)为例,当 λ 1 = 1 \lambda_1 \ = 1 λ1 =1时,将其代入 ( A − λ 1 E ) X = 0 (A - \lambda_1 E)X \ = 0 (Aλ1E)X =0,得到 ( 2 − 1 1 1 2 − 1 ) ( x 1 x 2 ) = ( 1 1 1 1 ) ( x 1 x 2 ) = ( 0 0 ) \begin{pmatrix} 2 - 1 & 1 \\ 1 & 2 - 1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 0 \\ 0 \end{pmatrix} (211121)(x1x2) =(1111)(x1x2) =(00)

为了求解这个齐次线性方程组,我们对系数矩阵 ( 1 1 1 1 ) \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix} (1111)进行初等行变换。根据初等行变换的规则,将第二行减去第一行,可将系数矩阵化为 ( 1 1 0 0 ) \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} (1010)。这意味着原方程组等价于 x 1 + x 2 = 0 x_1 + x_2 \ = 0 x1+x2 =0,我们令 x 2 = t x_2 \ = t x2 =t t t t为任意非零实数),那么 x 1 = − t x_1 \ = -t x1 =t。所以,对应的特征向量可以表示为 X 1 = t ( − 1 1 ) X_1 \ = t\begin{pmatrix} -1 \\ 1 \end{pmatrix} X1 =t(11) t ≠ 0 t \neq 0 t=0),这里 t t t的任意非零取值都对应着一个特征向量,它们构成了属于特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1的特征向量空间。

λ 2 = 3 \lambda_2 \ = 3 λ2 =3时,代入 ( A − λ 2 E ) X = 0 (A - \lambda_2 E)X \ = 0 (Aλ2E)X =0,即 ( 2 − 3 1 1 2 − 3 ) ( x 1 x 2 ) = ( − 1 1 1 − 1 ) ( x 1 x 2 ) = ( 0 0 ) \begin{pmatrix} 2 - 3 & 1 \\ 1 & 2 - 3 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 0 \\ 0 \end{pmatrix} (231123)(x1x2) =(1111)(x1x2) =(00)

同样对系数矩阵 ( − 1 1 1 − 1 ) \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix} (1111)进行初等行变换,将第一行乘以 − 1 -1 1后加到第二行,可化为 ( 1 − 1 0 0 ) \begin{pmatrix} 1 & -1 \\ 0 & 0 \end{pmatrix} (1010)。此时方程组等价于 x 1 − x 2 = 0 x_1 - x_2 \ = 0 x1x2 =0,令 x 2 = s x_2 \ = s x2 =s s s s为任意非零实数),则 x 1 = s x_1 \ = s x1 =s。所以对应的特征向量为 X 2 = s ( 1 1 ) X_2 \ = s\begin{pmatrix} 1 \\ 1 \end{pmatrix} X2 =s(11) s ≠ 0 s \neq 0 s=0)。

需要特别强调的是,在求解特征向量时,我们要找出所有的特征向量,而不仅仅是基础解系。基础解系是齐次线性方程组解空间的一组基,它能通过线性组合表示出解空间中的所有向量,但每个基础解系向量乘以非零标量后得到的向量也都是特征向量,我们需要将它们都考虑在内。

四、相似对角化

(一)相似对角化的条件

对于一个 n n n阶方阵 A A A,若存在一个可逆矩阵 P P P和一个对角矩阵 Λ \Lambda Λ,使得 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ成立,则称矩阵 A A A可进行相似对角化。

判断矩阵 A A A能否相似对角化,是一个关键且严谨的过程,我们需要通过求特征向量和基础解系来得出结论。具体步骤如下:

  1. 首先,求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0,从而得到矩阵 A A A的所有特征值 λ i \lambda_i λi i = 1 , 2 , ⋯ , n i \ = 1, 2, \cdots, n i =1,2,,n)。这些特征值是后续分析的基础。
  2. 对于每一个特征值 λ i \lambda_i λi,将其代入齐次线性方程组 ( A − λ i E ) X = 0 (A - \lambda_i E)X \ = 0 (AλiE)X =0,然后求解该方程组,得到基础解系 ξ i 1 , ξ i 2 , ⋯ , ξ i r i \xi_{i1}, \xi_{i2}, \cdots, \xi_{ir_i} ξi1,ξi2,,ξiri。这里的 r i r_i ri表示基础解系中向量的个数,它反映了属于特征值 λ i \lambda_i λi的线性无关特征向量的数量。
  3. 最后,我们检查所有特征值对应的线性无关特征向量的个数之和是否等于矩阵 A A A的阶数 n n n,即判断 ∑ i = 1 n r i = n \sum_{i \ = 1}^{n}r_i \ = n i =1nri =n是否成立。如果等式成立,那么矩阵 A A A可相似对角化;若不成立,则矩阵 A A A不可相似对角化。

(二)相似对角化的步骤

  1. 第一步,全面且准确地求出矩阵 A A A的所有特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1, \lambda_2, \cdots, \lambda_n λ1,λ2,,λn。这一步是相似对角化的起始点,需要我们熟练掌握特征方程的求解方法。
  2. 第二步,针对每个特征值 λ i \lambda_i λi,细致地求出对应的所有线性无关的特征向量 ξ i 1 , ξ i 2 , ⋯ , ξ i r i \xi_{i1}, \xi_{i2}, \cdots, \xi_{ir_i} ξi1,ξi2,,ξiri。然后,将这些特征向量按照一定的顺序按列构成可逆矩阵 P = ( ξ 11 , ⋯ , ξ 1 r 1 , ξ 21 , ⋯ , ξ 2 r 2 , ⋯ , ξ n 1 , ⋯ , ξ n r n ) P \ = (\xi_{11}, \cdots, \xi_{1r_1}, \xi_{21}, \cdots, \xi_{2r_2}, \cdots, \xi_{n1}, \cdots, \xi_{nr_n}) P =(ξ11,,ξ1r1,ξ21,,ξ2r2,,ξn1,,ξnrn)。在构建 P P P矩阵时,要确保特征向量的排列顺序与后续对角矩阵 Λ \Lambda Λ中特征值的顺序相对应。
  3. 第三步,构建对角矩阵 Λ = ( λ 1 ⋱ λ n ) \Lambda \ = \begin{pmatrix} \lambda_1 & & & \\ & \ddots & & \\ & & \lambda_n & \\ \end{pmatrix} Λ = λ1λn 。其中,主对角线上的元素就是矩阵 A A A的特征值,并且这些特征值的顺序要与 P P P矩阵中特征向量的排列顺序严格对应。

例如,对于前面提到的矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1对应的特征向量取 ξ 11 = ( − 1 1 ) \xi_{11} \ = \begin{pmatrix} -1 \\ 1 \end{pmatrix} ξ11 =(11)(当 t = 1 t \ = 1 t =1时),特征值 λ 2 = 3 \lambda_2 \ = 3 λ2 =3对应的特征向量取 ξ 21 = ( 1 1 ) \xi_{21} \ = \begin{pmatrix} 1 \\ 1 \end{pmatrix} ξ21 =(11)(当 s = 1 s \ = 1 s =1时),则 P = ( − 1 1 1 1 ) P \ = \begin{pmatrix} -1 & 1 \\ 1 & 1 \end{pmatrix} P =(1111) Λ = ( 1 0 0 3 ) \Lambda \ = \begin{pmatrix} 1 & 0 \\ 0 & 3 \end{pmatrix} Λ =(1003)。通过计算 P − 1 A P P^{-1}AP P1AP,可以验证 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ,从而实现了矩阵 A A A的相似对角化。

(三) P P P矩阵的可逆性

在相似对角化的过程中, P P P矩阵的可逆性具有举足轻重的地位。从相似对角化的定义 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ可以看出,如果 P P P不可逆,那么 P − 1 P^{-1} P1就不存在,也就无法满足相似对角化的形式要求,矩阵 A A A也就不能进行相似对角化。

深入分析可知, P P P矩阵是由矩阵 A A A的特征向量构成的。而 P P P矩阵可逆的充要条件是它的列向量线性无关,也就是矩阵 A A A n n n个特征向量线性无关。这进一步说明了 n n n阶方阵 A A A可相似对角化的充要条件是 A A A n n n个线性无关的特征向量。如果 A A A的特征向量线性相关,那么 P P P矩阵就不可逆,相似对角化也就无法实现。

五、特征值与相似矩阵的性质

(一)特征值的性质

  1. 特征值乘积与行列式的关系:特征值的乘积等于矩阵的行列式,即 ∏ i = 1 n λ i = ∣ A ∣ \prod_{i \ = 1}^{n}\lambda_i \ = \vert A\vert i =1nλi =A。这一性质揭示了特征值与矩阵行列式之间的内在联系。例如,对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),我们可以通过行列式的计算公式 ∣ A ∣ = 2 × 2 − 1 × 1 = 3 \vert A\vert \ = 2\times2 - 1\times1 \ = 3 A =2×21×1 =3来计算其行列式的值。同时,我们已经求得该矩阵的特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3 λ 1 λ 2 = 1 × 3 = 3 \lambda_1\lambda_2 \ = 1\times3 \ = 3 λ1λ2 =1×3 =3,恰好等于矩阵 A A A的行列式 ∣ A ∣ \vert A\vert A。这一性质在很多情况下可以帮助我们快速验证计算结果的正确性,或者通过已知的特征值来计算矩阵的行列式。
  2. 特征值之和与矩阵迹的关系:特征值的和等于矩阵的主对角线元素之和,矩阵的主对角线元素之和也被称为矩阵的迹,记为 t r ( A ) tr(A) tr(A),即 ∑ i = 1 n λ i = ∑ i = 1 n a i i \sum_{i \ = 1}^{n}\lambda_i \ = \sum_{i \ = 1}^{n}a_{ii} i =1nλi =i =1naii。对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112) t r ( A ) = 2 + 2 = 4 tr(A)\ =2 + 2 \ = 4 tr(A) =2+2 =4,而特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3 λ 1 + λ 2 = 1 + 3 = 4 \lambda_1+\lambda_2 \ = 1 + 3 \ = 4 λ1+λ2 =1+3 =4,二者相等。这一性质在判断矩阵的一些特性以及简化计算中具有重要作用。比如,当我们知道矩阵的特征值时,能快速得到矩阵的迹;反之,若已知矩阵的迹和部分特征值,也可据此求出其他特征值。

(二)相似矩阵的性质

  1. 特征值相同:相似矩阵具有相同的特征值。即若矩阵 A A A B B B相似,存在可逆矩阵 P P P使得 P − 1 A P = B P^{-1}AP \ = B P1AP =B,那么 A A A B B B的特征多项式 ∣ A − λ E ∣ \vert A - \lambda E\vert AλE ∣ B − λ E ∣ \vert B - \lambda E\vert BλE是相等的。这是因为 ∣ B − λ E ∣ = ∣ P − 1 A P − λ E ∣ = ∣ P − 1 ( A − λ E ) P ∣ \vert B - \lambda E\vert \ = \vert P^{-1}AP - \lambda E\vert \ = \vert P^{-1}(A - \lambda E)P\vert BλE =P1APλE =P1(AλE)P,根据行列式的性质 ∣ P − 1 ( A − λ E ) P ∣ = ∣ P − 1 ∣ ∣ A − λ E ∣ ∣ P ∣ \vert P^{-1}(A - \lambda E)P\vert \ = \vert P^{-1}\vert\vert A - \lambda E\vert\vert P\vert P1(AλE)P =P1∣∣AλE∣∣P,又因为 ∣ P − 1 ∣ ∣ P ∣ = 1 \vert P^{-1}\vert\vert P\vert \ = 1 P1∣∣P =1,所以 ∣ B − λ E ∣ = ∣ A − λ E ∣ \vert B - \lambda E\vert \ = \vert A - \lambda E\vert BλE =AλE,进而 A A A B B B有相同的特征值。这一性质在矩阵的变换和分类中非常关键,相似矩阵由于特征值相同,在很多与特征值相关的性质和应用上表现出一致性。
  2. 行列式相等:相似矩阵的行列式相等。因为 ∣ B ∣ = ∣ P − 1 A P ∣ = ∣ P − 1 ∣ ∣ A ∣ ∣ P ∣ = ∣ A ∣ \vert B\vert \ = \vert P^{-1}AP\vert \ = \vert P^{-1}\vert\vert A\vert\vert P\vert \ = \vert A\vert B =P1AP =P1∣∣A∣∣P =A(依据行列式的性质 ∣ A B ∣ = ∣ A ∣ ∣ B ∣ \vert AB\vert \ = \vert A\vert\vert B\vert AB =A∣∣B以及 ∣ P − 1 ∣ ∣ P ∣ = 1 \vert P^{-1}\vert\vert P\vert \ = 1 P1∣∣P =1)。这意味着相似矩阵在行列式相关的运算和性质上是等价的,例如在判断矩阵是否可逆时,相似矩阵具有相同的可逆性(因为可逆矩阵的行列式不为零,相似矩阵行列式相等,所以要么都可逆,要么都不可逆)。
  3. 迹相等:相似矩阵的迹相等。由于相似矩阵特征值相同,而特征值的和等于矩阵的迹,所以相似矩阵的迹必然相等。即若 A A A B B B相似, t r ( A ) = t r ( B ) tr(A)\ =tr(B) tr(A) =tr(B)。这一性质在一些需要比较矩阵特征的场景中很有用,比如在判断两个矩阵是否可能相似时,迹是否相等可以作为一个初步的判断条件。

六、伴随矩阵与转置矩阵的特征值

(一)伴随矩阵的特征值

对于矩阵 A A A,当 A A A可逆时,其伴随矩阵 A ∗ A^* A满足 A ∗ = ∣ A ∣ A − 1 A^* \ = \vert A\vert A^{-1} A =AA1。假设 λ \lambda λ A A A的特征值, ξ \xi ξ是对应的特征向量,即 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ ξ ≠ 0 \xi\neq0 ξ=0)。两边同时左乘 A ∗ A^* A,得到 A ∗ A ξ = A ∗ λ ξ A^*A\xi \ = A^*\lambda\xi AAξ =Aλξ。又因为 A ∗ A = ∣ A ∣ E A^*A \ = \vert A\vert E AA =AE,所以 ∣ A ∣ ξ = λ A ∗ ξ \vert A\vert\xi \ = \lambda A^*\xi Aξ =λAξ,则 A ∗ ξ = ∣ A ∣ λ ξ A^*\xi \ = \frac{\vert A\vert}{\lambda}\xi Aξ =λAξ λ ≠ 0 \lambda\neq0 λ=0)。这表明当 λ \lambda λ是可逆矩阵 A A A的非零特征值时, ∣ A ∣ λ \frac{\vert A\vert}{\lambda} λA A ∗ A^* A的特征值。例如,若 A A A是一个 3 3 3阶可逆矩阵, ∣ A ∣ = 6 \vert A\vert \ = 6 A =6 A A A的一个特征值为 2 2 2,那么 A ∗ A^* A对应有一个特征值为 6 2 = 3 \frac{6}{2}\ =3 26 =3

λ = 0 \lambda \ = 0 λ =0时,情况较为特殊。若 0 0 0 A A A的特征值,则 A A A不可逆(因为可逆矩阵的特征值都不为 0 0 0),此时需要根据 A A A的秩等信息进一步分析 A ∗ A^* A的特征值情况。若 r ( A ) < n − 1 r(A)<n - 1 r(A)<n1 n n n为矩阵 A A A的阶数),则 A ∗ A^* A的所有元素都为 0 0 0,即 A ∗ = 0 A^* \ = 0 A =0 0 0 0 A ∗ A^* A n n n重特征值;若 r ( A ) = n − 1 r(A)\ =n - 1 r(A) =n1 A ∗ A^* A的秩为 1 1 1 0 0 0 A ∗ A^* A n − 1 n - 1 n1重特征值,另一个非零特征值可通过其他方法计算。

(二)伴随矩阵与转置矩阵特征值的关系

A A A的伴随矩阵 A ∗ A^* A A A A的转置矩阵 A T A^T AT的特征值相同。这是因为 ∣ A T − λ E ∣ = ∣ ( A − λ E ) T ∣ \vert A^T - \lambda E\vert \ = \vert (A - \lambda E)^T\vert ATλE =(AλE)T,根据行列式的性质 ∣ A T ∣ = ∣ A ∣ \vert A^T\vert \ = \vert A\vert AT =A,可得 ∣ ( A − λ E ) T ∣ = ∣ A − λ E ∣ \vert (A - \lambda E)^T\vert \ = \vert A - \lambda E\vert (AλE)T =AλE,所以 A A A A T A^T AT有相同的特征多项式,进而有相同的特征值。而 A ∗ A^* A A A A的特征值存在上述关系,所以在一定条件下, A ∗ A^* A A T A^T AT的特征值相同。这一关系在研究矩阵的各种变换和性质时提供了更多的思路和联系,例如在某些涉及伴随矩阵和转置矩阵的计算和证明中,可以利用它们特征值相同这一性质进行推导和简化。

七、矩阵 A A A及其相关矩阵的特征值与特征向量性质推导

(一) a A + b E aA + bE aA+bE a a a b b b为常数 )的特征值与特征向量

已知 λ \lambda λ是矩阵 A A A的特征值, ξ \xi ξ是对应的特征向量,即 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ
对于矩阵 a A + b E aA + bE aA+bE,计算 ( a A + b E ) ξ (aA + bE)\xi (aA+bE)ξ
( a A + b E ) ξ = a A ξ + b E ξ = a λ ξ + b ξ = ( a λ + b ) ξ \begin{align*} (aA + bE)\xi&\ =aA\xi + bE\xi\\ &\ =a\lambda\xi + b\xi\\ &\ =(a\lambda + b)\xi \end{align*} (aA+bE)ξ =aAξ+bEξ =ξ+bξ =(+b)ξ
根据特征值与特征向量的定义,满足 ( a A + b E ) ξ = μ ξ (aA + bE)\xi \ = \mu\xi (aA+bE)ξ =μξ μ \mu μ为特征值, ξ \xi ξ为特征向量)的 μ \mu μ就是 a A + b E aA + bE aA+bE的特征值,所以 a A + b E aA + bE aA+bE的特征值为 a λ + b a\lambda + b +b,且特征向量与 A A A相同,为 ξ \xi ξ。这表明对矩阵 A A A进行 a a a倍缩放并加上 b b b倍单位矩阵的变换后,其特征值也相应地进行 a a a倍缩放再加上 b b b的变换,而特征向量保持不变。

(二) A n A^n An n n n为正整数 )的特征值与特征向量

已知 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ,当 n = 2 n \ = 2 n =2时:
A 2 ξ = A ( A ξ ) = A ( λ ξ ) = λ A ξ = λ 2 ξ \begin{align*} A^2\xi&\ =A(A\xi)\\ &\ =A(\lambda\xi)\\ &\ =\lambda A\xi\\ &\ =\lambda^2\xi \end{align*} A2ξ =A(Aξ) =A(λξ) =λAξ =λ2ξ
假设当 n = k n \ = k n =k k k k为正整数)时, A k ξ = λ k ξ A^k\xi \ = \lambda^k\xi Akξ =λkξ成立。
n = k + 1 n \ = k + 1 n =k+1时:
A k + 1 ξ = A ( A k ξ ) = A ( λ k ξ ) = λ k A ξ = λ k + 1 ξ \begin{align*} A^{k + 1}\xi&\ =A(A^k\xi)\\ &\ =A(\lambda^k\xi)\\ &\ =\lambda^k A\xi\\ &\ =\lambda^{k + 1}\xi \end{align*} Ak+1ξ =A(Akξ) =A(λkξ) =λkAξ =λk+1ξ
由数学归纳法可知,对于任意正整数 n n n A n ξ = λ n ξ A^n\xi \ = \lambda^n\xi Anξ =λnξ。所以 A n A^n An的特征值为 λ n \lambda^n λn,特征向量为 ξ \xi ξ。这体现了矩阵幂次运算与特征值、特征向量之间的规律,矩阵 A A A n n n次幂的特征值是其原特征值的 n n n次幂,且特征向量在幂次变换下保持稳定。

(三) A − 1 A^{-1} A1 A A A可逆 )的特征值与特征向量

因为 A A A可逆,且 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ ξ ≠ 0 \xi\neq0 ξ=0),两边同时左乘 A − 1 A^{-1} A1
A − 1 A ξ = A − 1 λ ξ ξ = λ A − 1 ξ \begin{align*} A^{-1}A\xi&\ =A^{-1}\lambda\xi\\ \xi&\ =\lambda A^{-1}\xi \end{align*} A1Aξξ =A1λξ =λA1ξ
由于 λ ≠ 0 \lambda\neq0 λ=0(可逆矩阵的特征值不为 0 0 0),等式两边同时除以 λ \lambda λ,得到 A − 1 ξ = 1 λ ξ A^{-1}\xi \ = \frac{1}{\lambda}\xi A1ξ =λ1ξ。所以 A − 1 A^{-1} A1的特征值为 1 λ \frac{1}{\lambda} λ1,特征向量为 ξ \xi ξ。这表明可逆矩阵 A A A的逆矩阵的特征值是 A A A特征值的倒数,且矩阵 A A A与其逆矩阵 A − 1 A^{-1} A1具有相同的特征向量,反映了可逆矩阵与其逆矩阵在特征向量性质上的紧密联系。

(四) A T A^T AT A A A的转置矩阵 )的特征值

已知 A A A A T A^T AT的特征多项式分别为 ∣ A − λ E ∣ \vert A - \lambda E\vert AλE ∣ A T − λ E ∣ \vert A^T - \lambda E\vert ATλE
根据行列式的性质:对于任意矩阵 M M M ∣ M T ∣ = ∣ M ∣ \vert M^T\vert \ = \vert M\vert MT =M
对于 M = A − λ E M \ = A - \lambda E M =AλE,有 ∣ A T − λ E ∣ = ∣ ( A − λ E ) T ∣ = ∣ A − λ E ∣ \vert A^T - \lambda E\vert \ = \vert (A - \lambda E)^T\vert \ = \vert A - \lambda E\vert ATλE =(AλE)T =AλE
因为特征多项式相等,所以 A A A A T A^T AT有相同的特征值。但需要注意的是,虽然 A A A A T A^T AT特征值相同,它们的特征向量一般不同。这是因为矩阵转置后,其对向量的变换方式在空间中的表现有所不同,导致满足特征向量定义的向量集合通常不一致。

八、总结

本教程全面且深入地讲解了线性代数中特征值与特征向量的求解方法,包括从特征方程出发求特征值,以及通过代入方程组细致求解特征向量的过程,同时强调了求解特征向量时要涵盖所有情况。对于相似对角化,我们详细阐述了其基础概念、判断条件、具体步骤以及 P P P矩阵可逆性的重要意义。此外,还深入探讨了特征值与相似矩阵的诸多性质,以及伴随矩阵与转置矩阵特征值的特点和关系,并对矩阵 A A A及其相关矩阵的特征值与特征向量性质进行了详细推导。

特征值、特征向量以及相似对角化作为线性代数的核心内容,不仅在理论体系中占据关键地位,而且在实际应用中有着广泛的用途。希望读者通过本教程能够深入理解这些知识,熟练掌握相关的计算和判断方法,为后续在数学、物理、工程、计算机科学等多个领域的学习和研究打下坚实的基础。在学习过程中,建议读者多做练习题,通过实际操作加深对这些概念和方法的理解和运用能力。


http://www.ppmy.cn/ops/158206.html

相关文章

急停信号的含义

前言&#xff1a; 大家好&#xff0c;我是上位机马工&#xff0c;硕士毕业4年年入40万&#xff0c;目前在一家自动化公司担任软件经理&#xff0c;从事C#上位机软件开发8年以上&#xff01;我们在开发C#的运动控制程序的时候&#xff0c;一个必要的步骤就是确认设备按钮的急停…

微信小程序医院挂号系统

第3章 系统设计 3.1系统体系结构 系统的体系结构非常重要&#xff0c;往往决定了系统的质量和生命周期。针对不同的系统可以采用不同的系统体系结构。本系统为微信小程序医院挂号系统&#xff0c;属于开放式的平台&#xff0c;所以在管理端体系结构中采用B/s。B/s结构抛弃了固…

我用AI做数据分析之四种堆叠聚合模型的比较

我用AI做数据分析之四种堆叠聚合模型的比较 这里AI数据分析不仅仅是指AI生成代码的能力&#xff0c;我想是测试AI数据分析方面的四个能力&#xff0c;理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准&#xff0c;才可…

Hdoop之MapReduce的原理

简单版本 AppMaster: 整个Job任务的核心协调工具 MapTask: 主要用于Map任务的执行 ReduceTask: 主要用于Reduce任务的执行 一个任务提交Job --> AppMaster(项目经理)--> 根据切片的数量统计出需要多少个MapTask任务 --> 向ResourceManager(Yarn平台的老大)索要资源 --…

Vue全流程--Vue3组合一ref与reactive(实现响应式)

ref&#xff1a;定义基本类型的响应式数据 先看ref使用的位置 <script > import {ref} from vue export default {name: App,setup(){//数据let name ref(张三)let age ref(18)//方法function changeInfo(){// name 李四// age 48console.log(name,age)}//返回一个…

MIT开源7B推理模型Satori:用行动思维链进行强化学习,增强自回归搜索

自OpenAI的o1发布以来&#xff0c;研究社区为提升开源LLM的高级推理能力做出了诸多努力&#xff0c;包括使用强大的教师模型进行蒸馏、蒙特卡洛树搜索&#xff08;MCTS&#xff09;以及基于奖励模型的引导搜索等方法。 本研究旨在探索一个新的研究方向&#xff1a;使LLM具备自回…

第七节 文件与流

基本的输入输出&#xff08;iostream&#xff09; C标准库提供了一组丰富的输入/输出功能&#xff0c;C的I/O发生在流中&#xff0c;流是字节序列。如果字节流是从设备&#xff08;键盘、磁盘驱动器、网络连接等&#xff09;流向内存&#xff0c;叫做输入操作。如果字节流是从…

Tauri Windows入门开发避坑指南

一、前置条件 在Windows上开发Tauri应用&#xff0c;需要先配置开发环境&#xff1a; windows上需要满足以下三个要求&#xff1a; 1.Microsoft C 构建工具 2.安装WebView2 3.下载并安装Rust 这些软件在本文附件中可以下载&#xff0c;如何安装请查看官方文档&#xff1a;htt…