一、对称矩阵的性质
可以毫不夸张的说,对称矩阵 S S S 是世界上所能看到的最重要的矩阵 —— 不仅在线性代数理论也是在实际应用中。关于对称矩阵的关键问题,这个问题有两部分答案: 当 S 是对称矩阵时, S x = λ x 有什么特殊的? \pmb{当\,S\,是对称矩阵时,S\boldsymbol x=\lambda\boldsymbol x\,有什么特殊的?} 当S是对称矩阵时,Sx=λx有什么特殊的?当 S = S T S=S^T S=ST 时,我们寻找特征值 λ \lambda λ 和特征向量 x \boldsymbol x x 的特殊性质。对角化 S = X Λ X − 1 S=X\Lambda X^{-1} S=XΛX−1 会反映出 S S S 的对称性,我们取转置 S T = ( X − 1 ) T Λ X T S^T=(X^{-1})^T\Lambda X^T ST=(X−1)TΛXT,由于 S = S T S=S^T S=ST,所以这些是一样的。那么可以猜测第一种形式的 X − 1 X^{-1} X−1 可能等于第二种形式中的 X T X^T XT,就会有 X T X = I X^TX=I XTX=I,此时 X X X 中的每个特征向量和另外的特征向量正交。有以下两个事实:
1、对称矩阵只有实数特征值。
2、特征向量可以选成标准正交的向量。
这 n n n 个标准正交的特征向量进到 X X X 的列,则每个对称矩阵都可以对角化。对称矩阵的特征向量矩阵 X X X 变成了一个正交矩阵 Q Q Q。正交矩阵有 Q − 1 = Q T Q^{-1}=Q^T Q−1=QT,我们猜测的特征向量矩阵的性质是正确的。注意当我们选择标准正交的特征向量时,此时用 Q Q Q 替代了 X X X。
为什么是说 “选择” 呢?这是因为特征向量并不一定是单位向量,我们可以处理它的长度,这里我们选择单位向量 —— 长度为一的特征向量,它们标准正交而不仅仅是正交向量。则 A = X Λ X − 1 A=X\Lambda X^{-1} A=XΛX−1 在对称矩阵这种特殊情况下有特殊形式 S = Q Λ Q − 1 S=Q\Lambda Q^{-1} S=QΛQ−1。
(Spectral Theorem 谱定理) 每个对称矩阵都可以分解成 S = Q Λ Q T S=Q\Lambda Q^T S=QΛQT, Λ \Lambda Λ 中是实数特征值, Q Q Q 的列是标准正交的特征向量: 对称对角化 ( Symmetric diagonalization ) S = Q Λ Q T ,且 Q − 1 = Q T ( 6.4.1 ) \pmb{对称对角化(\textrm{Symmetric\,diagonalization})}\kern 10pt{\color{blue}S=Q\Lambda Q^T,且\,Q^{-1}=Q^T}\kern 8pt(6.4.1) 对称对角化(Symmetricdiagonalization)S=QΛQT,且Q−1=QT(6.4.1)
很容易就可以看出 Q Λ Q T Q\Lambda Q^T QΛQT 是对称的,取转置,可以得到 ( Q T ) T Λ T Q T (Q^T)^T\Lambda^TQ^T (QT)TΛTQT,也就是 Q Λ Q T Q\Lambda Q^T QΛQT。比较困难的是要证明每个对称矩阵都是实数特征值 λ ′ s \lambda's λ′s 和标准正交的特征向量 x ′ s \boldsymbol x's x′s。这就是数学上的 “谱定理” 和几何和物理上的 “主轴定理(principal axis theorem)”。下面要证明它!会用三步来说明:
- 通过一个例子来展示 Λ \Lambda Λ 中的实数特征值 λ ′ s \lambda's λ′s 和 Q Q Q 中的标准正交的特征向量 x ′ s \boldsymbol x's x′s.
- 当没有重复的特征值时,证明这些事实。
- 允许有重复的特征值时的证明。(本节的最后)
【例1】当 S = [ 1 2 2 4 ] S=\begin{bmatrix}1&2\\2&4\end{bmatrix} S=[1224] 和 S − λ I = [ 1 − λ 2 2 4 − λ ] S-\lambda I=\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix} S−λI=[1−λ224−λ] 时,求 λ ′ s \lambda's λ′s 和 x ′ s \boldsymbol x's x′s.
解: S − λ I S-\lambda I S−λI 的行列式是 λ 2 − 5 λ \lambda^2-5\lambda λ2−5λ,则特征值是 0 0 0 和 5 5 5,它们都是实数。我们也可以直接看出特征值:由于 S S S 是奇异的,所以 λ = 0 \lambda=0 λ=0 是一个特征值,由矩阵的迹可以得到 λ = 5 \lambda=5 λ=5 是另一个特征值: 0 + 5 0+5 0+5 等于 1 + 4 1+4 1+4.
两个特征向量是 ( 2 , − 1 ) (2,-1) (2,−1) 和 ( 1 , 2 ) (1,2) (1,2) —— 正交但还不是标准正交, λ = 0 \lambda=0 λ=0 时的特征向量在 S S S 的零空间, λ = 5 \lambda=5 λ=5 时的特征向量在列空间。那么这里为什么零空间和列空间垂直呢?基本定理说的是零空间垂直于行空间 —— 不是列空间,但是我们的矩阵是对称的!它的行空间和列空间一样,它的特征向量 ( 2 , − 1 ) (2,-1) (2,−1) 和 ( 1 , 2 ) (1,2) (1,2) 也一定垂直,这里也确实是垂直的。
这两个特征向量的长度都是 5 \sqrt5 5,都除以 5 \sqrt5 5 就得到了单位向量,将这些单位向量放进 Q Q Q 的列中,则 Q − 1 S Q Q^{-1}SQ Q−1SQ 就是 Λ \Lambda Λ,且 Q − 1 = Q T Q^{-1}=Q^T Q−1=QT: Q − 1 S Q = 1 5 [ 2 − 1 1 2 ] [ 1 2 2 4 ] 1 5 [ 2 1 − 1 2 ] = [ 0 0 0 5 ] = Λ Q^{-1}SQ=\frac{1}{\sqrt5}\begin{bmatrix}2&-1\\1&\kern 7pt2\end{bmatrix}\begin{bmatrix}1&2\\2&4\end{bmatrix}\frac{1}{\sqrt5}\begin{bmatrix}\kern 7pt2&1\\-1&2\end{bmatrix}=\begin{bmatrix}0&0\\0&5\end{bmatrix}=\Lambda Q−1SQ=51[21−12][1224]51[2−112]=[0005]=Λ现在讨论 n × n n\times n n×n 的情况,当 S = S T S=S^T S=ST 且 S x = λ x S\boldsymbol x=\lambda\boldsymbol x Sx=λx 时 λ ′ s \lambda's λ′s 都是实数。
实数特征值 \kern 5pt 实对称矩阵的所有特征值都是实数。
证明: 假设 S x = λ x S\boldsymbol x=\lambda\boldsymbol x Sx=λx,到目前为止我们知道, λ \lambda λ 可能是一个复数 a + i b a+ib a+ib( a a a 和 b b b)是实数,它的共轭复数是 λ ˉ = a − i b \bar\lambda=a-ib λˉ=a−ib,相似的, x \boldsymbol x x 的分量也可能是复数,改变虚部的符号得到 x ˉ \bar{\boldsymbol x} xˉ.
好事是 λ ˉ \bar\lambda λˉ 乘 x ˉ \bar{\boldsymbol x} xˉ 总是 λ \lambda λ 乘 x \boldsymbol x x 的共轭,所以我们取 S x = λ x S\boldsymbol x=\lambda\boldsymbol x Sx=λx,记住 S S S 是实数: S x = λ x 得到 S x ˉ = λ ˉ x ˉ . 转置得 x ˉ T S = x ˉ T λ ˉ S\boldsymbol x=\lambda\boldsymbol x\kern 5pt得到\kern 5ptS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}.\kern 15pt转置得\kern 5pt\bar{\boldsymbol x}^TS=\bar{\boldsymbol x}^T\bar\lambda Sx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉ现在取第一个方程与 x ˉ \bar{\boldsymbol x} xˉ 的点积和最后一个方程与 x \boldsymbol x x 的点积: x ˉ T S x = x ˉ T λ x 和 x ˉ T S x = x ˉ T λ ˉ x ( 6.4.2 ) \bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\lambda\boldsymbol x\kern 15pt和\kern 15pt\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\bar\lambda\boldsymbol x\kern 20pt(6.4.2) xˉTSx=xˉTλx和xˉTSx=xˉTλˉx(6.4.2)左侧的是一样的,所以右侧相等,一个方程是 λ \lambda λ,另一个是 λ ˉ \bar\lambda λˉ. 乘积 x ˉ T x = ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + ⋯ = 长度的平方 \bar{\boldsymbol x}^T\boldsymbol x=|x_1|^2+|x_2|^2+\cdots=长度的平方 xˉTx=∣x1∣2+∣x2∣2+⋯=长度的平方,这一项不为零。因此 λ \lambda λ 一定等于 λ ˉ \bar\lambda λˉ,且 a + i b a+ib a+ib 等于 a − i b a-ib a−ib,所以 b = 0 b=0 b=0 且 λ = a = 实数 \lambda=a=实数 λ=a=实数。证毕!
特征向量是求解实数方程 ( S − λ I ) x = 0 (S-\lambda I)\boldsymbol x=\boldsymbol 0 (S−λI)x=0 得到的,所以 x ′ s \boldsymbol x's x′s 也是实数。重要的事实是它们是垂直的。
正交特征向量 \kern 5pt 实对称矩阵的特征向量(对应于不同的 λ ′ s \lambda's λ′s)永远垂直。
证明: 假设 S x = λ 1 x S\boldsymbol x=\lambda_1\boldsymbol x Sx=λ1x, S y = λ 2 y S\boldsymbol y=\lambda_2\boldsymbol y Sy=λ2y,这里假设 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,第一个方程取与 y \boldsymbol y y 的点积,第二个方程取与 x \boldsymbol x x 的点积: 使用 S T = S ( λ 1 x ) T y = ( S x ) T y = x T S T y = x T S y = x T λ 2 y ( 6.4.3 ) \pmb{使用}\,S^T=S\kern 15pt(\lambda_1\boldsymbol x)^T\boldsymbol y=(S\boldsymbol x)^T\boldsymbol y=\boldsymbol x^TS^T\boldsymbol y=\boldsymbol x^TS\boldsymbol y=\boldsymbol x^T\lambda_2\boldsymbol y\kern 14pt(6.4.3) 使用ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)左边是 x T λ 1 y \boldsymbol x^T\lambda_1\boldsymbol y xTλ1y,右边是 x T λ 2 y \boldsymbol x^T\lambda_2\boldsymbol y xTλ2y,由于 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,所以有 x T y = 0 \boldsymbol x^T\boldsymbol y=0 xTy=0,所以 λ 1 \lambda_1 λ1 对应的特征向量 x \boldsymbol x x 垂直于 λ 2 \lambda_2 λ2 对应的特征向量 y \boldsymbol y y.
【例2】 2 × 2 2\times2 2×2 对称矩阵的特征向量有一个特殊形式 : 不太广为人知的 S = [ a b b c ] 有 x 1 = [ b λ 1 − a ] 和 x 2 = [ λ 2 − c b ] ( 6.4.4 ) \pmb{不太广为人知的}\kern 15ptS=\begin{bmatrix}a&b\\b&c\end{bmatrix}\kern 5pt有\kern 5pt\boldsymbol x_1=\begin{bmatrix}b\\\lambda_1-a\end{bmatrix}\kern 5pt和\kern 5pt\boldsymbol x_2=\begin{bmatrix}\lambda_2-c\\b\end{bmatrix}\kern 15pt(6.4.4) 不太广为人知的S=[abbc]有x1=[bλ1−a]和x2=[λ2−cb](6.4.4)这个重点是 x 1 \boldsymbol x_1 x1 和 x 2 \boldsymbol x_2 x2 垂直: x 1 T x 2 = b ( λ 2 − c ) + ( λ 1 − a ) b = b ( λ 1 + λ 2 − a − c ) = 0 \boldsymbol x_1^T\boldsymbol x_2=b(\lambda_2-c)+(\lambda_1-a)b=b(\lambda_1+\lambda_2-a-c)=0 x1Tx2=b(λ2−c)+(λ1−a)b=b(λ1+λ2−a−c)=0因为 λ 1 + λ 2 \lambda_1+\lambda_2 λ1+λ2 等于迹 a + c a+c a+c,所以结果为零,则 x 1 T x 2 = 0 \boldsymbol x_1^T\boldsymbol x_2=0 x1Tx2=0。你可能会注意到特殊的情况 S = I S=I S=I,此时 b 、 λ 1 − a 、 λ 2 − c b、\lambda_1-a、\lambda_2-c b、λ1−a、λ2−c 和 x 1 、 x 2 \boldsymbol x_1、\boldsymbol x_2 x1、x2 都是零,这是因为 λ 1 = λ 2 \lambda_1=\lambda_2 λ1=λ2 是重复的特征值。当然 S = I S=I S=I 也有垂直的特征向量。 对称矩阵 S 有标准正交的特征向量矩阵 Q . 再看一下: 对称 S = X Λ X − 1 变成 S = Q Λ Q T 且 Q T Q = I 这个说明任意的 2 × 2 矩阵是 ( 旋转 ) ( 拉伸 ) ( 旋转回来 ) S = Q Λ Q T = [ q 1 q 2 ] [ λ 1 λ 2 ] [ q 1 T q 2 T ] ( 6.4.5 ) 列 q 1 和 q 2 乘行 λ 1 q 1 T 和 λ 2 q 2 T 得到 S = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T \boxed{\begin{array}{c}\pmb{对称矩阵\,S\,有标准正交的特征向量矩阵\,Q.}\,再看一下:\\\color{blue}对称\kern 10ptS=X\Lambda X^{-1}\kern 5pt变成\kern 5ptS=Q\Lambda Q^T\kern 5pt且\kern 5ptQ^TQ=I\\这个说明任意的\,2\times2\,矩阵是\,\pmb{(旋转)(拉伸)(旋转回来)}\\S=Q\Lambda Q^T=\begin{bmatrix}\\\boldsymbol q_1&\boldsymbol q_2\\\,\end{bmatrix}\begin{bmatrix}\lambda_1\\&\lambda_2\end{bmatrix}\begin{bmatrix}\boldsymbol q_1^T\\\,\\\boldsymbol q_2^T\end{bmatrix}\kern 15pt(6.4.5)\\\pmb{列\,\boldsymbol q_1\,和\,\boldsymbol q_2\,乘行\,\lambda_1\boldsymbol q_1^T\,和\,\lambda_2\boldsymbol q_2^T\,得到\,S=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T}\end{array}} 对称矩阵S有标准正交的特征向量矩阵Q.再看一下:对称S=XΛX−1变成S=QΛQT且QTQ=I这个说明任意的2×2矩阵是(旋转)(拉伸)(旋转回来)S=QΛQT= q1q2 [λ1λ2] q1Tq2T (6.4.5)列q1和q2乘行λ1q1T和λ2q2T得到S=λ1q1q1T+λ2q2q2T
每个对称矩阵 S = Q Λ Q T = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T ( 6.4.6 ) {\color{blue}{\pmb{每个对称矩阵}\kern 90ptS=Q\Lambda Q^T=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T}}\kern 25pt(6.4.6) 每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT(6.4.6)
这些伟大结果的步骤(谱定理):
- 将 A x i = λ i x i A\boldsymbol x_i=\lambda_i\boldsymbol x_i Axi=λixi 写成矩阵形式 A X = X Λ 或 A = X Λ X − 1 \kern 20ptAX=X\Lambda\,或\,A=X\Lambda X^{-1} AX=XΛ或A=XΛX−1
- 标准正交 x i = q i \boldsymbol x_i=\boldsymbol q_i xi=qi 使得 X = Q S = Q Λ Q − 1 = Q Λ Q T X=Q\kern 15ptS=Q\Lambda Q^{-1}=Q\Lambda Q^T X=QS=QΛQ−1=QΛQT
方程(6.4.6)中的 Q Λ Q T Q\Lambda Q^T QΛQT 的列是 Q Λ Q\Lambda QΛ 乘行 Q T Q^T QT,下面是直接的证明:
S 有正确的特征向量,这些 q ′ s 标准正交 S q i = ( λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T ) q i = λ i q i ( 6.4.7 ) \pmb{S\,有正确的特征向量,这些\,\boldsymbol q's\,标准正交}\kern 20ptS\boldsymbol q_i=(\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T)\boldsymbol q_i=\lambda_i\boldsymbol q_i\kern 15pt(6.4.7) S有正确的特征向量,这些q′s标准正交Sqi=(λ1q1q1T+λ2q2q2T+⋯+λnqnqnT)qi=λiqi(6.4.7)
二、实数矩阵的复数特征值
对于任意的实数矩阵,由 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 得到 A x ˉ = λ ˉ x ˉ A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Axˉ=λˉxˉ,若是对称矩阵 S x = λ x S\boldsymbol x=\lambda\boldsymbol x Sx=λx 得到 S x ˉ = λ ˉ x ˉ S\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Sxˉ=λˉxˉ, λ \lambda λ 和 x \boldsymbol x x 都是实数,则这两个方程是一样的。但是非对称矩阵会很容易有复数的 λ \lambda λ 和 x \boldsymbol x x,则 A x ˉ = λ ˉ x ˉ A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Axˉ=λˉxˉ 就与 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 不再相同,我么得到了另一个复数特征值(就是 λ ˉ \bar\lambda λˉ)和一个新的特征向量(就是 x ˉ \bar{\boldsymbol x} xˉ):
对于实数矩阵,复数 λ ′ s 和 x ′ s 都是以 “共轭对 ( conjugate pairs ) ” 形式出现的。 λ = a + i b λ ˉ = a − i b 如果 A x = λ x 则 A x ˉ = λ ˉ x ˉ ( 6.4.8 ) \pmb{对于实数矩阵,复数\,\lambda's\,和\,\boldsymbol x's\,都是以\,“共轭对(\textrm{conjugate\,pairs})”\,形式出现的。}\\\begin{matrix}\lambda=a+ib\\\bar{\lambda}=a-ib\end{matrix}\kern 15pt{\color{blue}如果\,A\boldsymbol x=\lambda\boldsymbol x\,则\,A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}}\kern 20pt(6.4.8) 对于实数矩阵,复数λ′s和x′s都是以“共轭对(conjugatepairs)”形式出现的。λ=a+ibλˉ=a−ib如果Ax=λx则Axˉ=λˉxˉ(6.4.8)
【例3】 A = [ cos θ − sin θ sin θ cos θ ] A=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix} A=[cosθsinθ−sinθcosθ] 的特征值是 λ 1 = cos θ + i sin θ \lambda_1=\cos\theta+i\sin\theta λ1=cosθ+isinθ 和 λ 2 = cos θ − i sin θ \lambda_2=\cos\theta-i\sin\theta λ2=cosθ−isinθ.
这些特征值都是另一个的共轭,它们分别是 λ \lambda λ 和 λ ˉ \bar{\lambda} λˉ,由于 A A A 是实数矩阵,所以特征向量一定是 x \boldsymbol x x 和 x ˉ \bar{\boldsymbol x} xˉ: 这是 λ x A x = [ cos θ − sin θ sin θ cos θ ] [ 1 − i ] = ( cos θ + i sin θ ) [ 1 − i ] 这是 λ ˉ x ˉ A x ˉ = [ cos θ − sin θ sin θ cos θ ] [ 1 i ] = ( cos θ − i sin θ ) [ 1 i ] ( 6.4.9 ) \begin{array}{ll}这是\,\lambda\boldsymbol x&A\boldsymbol x=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}=(\cos\theta+i\sin\theta)\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}\\\\这是\,\bar\lambda\bar{\boldsymbol x}&A\bar{\boldsymbol x}=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=(\cos\theta-i\sin\theta)\begin{bmatrix}1\\i\end{bmatrix}\end{array}\kern 13pt(6.4.9) 这是λx这是λˉxˉAx=[cosθsinθ−sinθcosθ][1−i]=(cosθ+isinθ)[1−i]Axˉ=[cosθsinθ−sinθcosθ][1i]=(cosθ−isinθ)[1i](6.4.9)由于 A A A 是实矩阵,所以这些特征向量 ( 1 , − i ) (1,-i) (1,−i) 和 ( 1 , i ) (1,i) (1,i) 是共轭复数。
这个旋转矩阵特征值的绝对值是 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1,因为 cos 2 θ + sin 2 θ = 1 \cos^2\theta+\sin^2\theta=1 cos2θ+sin2θ=1。事实上,每一个正交矩阵 Q Q Q 都有特征值 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1.
三、特征值对比主元
A A A 的特征值和主元是不一样的,对于特征值,我们是求解 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0;对于主元,我们使用消元法。目前来说它们的唯一联系是: 主元的乘积 = 行列式 = 特征值的乘积 \pmb{主元的乘积=行列式=特征值的乘积} 主元的乘积=行列式=特征值的乘积假设有一整套主元 d 1 , d 2 , ⋯ , d n d_1,d_2,\cdots,d_n d1,d2,⋯,dn, n n n 个实数特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn,这些 d ′ s d's d′s 和 λ ′ s \lambda's λ′s 是不一样的,但是如果它们来自相同的对称矩阵,这些 d ′ s d's d′s 和 λ ′ s \lambda's λ′s 就有一个隐藏的关系。对称矩阵的主元和特征值有相同的符号: S = S T 正特征值的个数等于它正主元的个数。 特殊情况: S 所有的 λ i > 0 当且仅当所有的主元都是正数。 {\color{blue}S=S^T\,正特征值的个数等于它正主元的个数。}\\特殊情况:S\,所有的\,\lambda_i>0\,当且仅当所有的主元都是正数。 S=ST正特征值的个数等于它正主元的个数。特殊情况:S所有的λi>0当且仅当所有的主元都是正数。这种特殊情况就是正定矩阵(positive definite matrices) 最重要的事实。
【例4】下面这个对称矩阵有一个正特征值和正主元: 符号匹配 S = [ 1 3 3 1 ] 有主元 1 和 − 8 特征值 4 和 − 2 \pmb{符号匹配}\kern 20ptS=\begin{bmatrix}1&3\\3&1\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和-8\\特征值\,4\,和-2\end{array} 符号匹配S=[1331]有主元1和−8特征值4和−2主元的符号和特征值的符号是匹配的,一个正号一个负号。当矩阵不是对称矩阵时,这个结论可能是错误的: 相反符号 B = [ 1 6 − 1 − 4 ] 有主元 1 和 2 特征值 − 1 和 − 2 \pmb{相反符号}\kern 20ptB=\begin{bmatrix}\kern 7pt1&\kern 7pt6\\-1&-4\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和\,2\\特征值-1\,和-2\end{array} 相反符号B=[1−16−4]有主元1和2特征值−1和−2 下面是当 S = S T 时,主元和特征值有相同符号的证明。 \color{blue}下面是当\,S=S^T\,时,主元和特征值有相同符号的证明。 下面是当S=ST时,主元和特征值有相同符号的证明。当主元从 U U U 的行使用除法提取出来时可以看的比较清晰,此时 S S S 就是 L D L T LDL^T LDLT,对角主元矩阵 D D D 在两个三角矩阵 L L L 和 L T L^T LT 之间: [ 1 3 3 1 ] = [ 1 0 3 1 ] [ 1 − 8 ] [ 1 3 0 1 ] 这是 S = L D L T , 它是对称的 。 注意当 L 变换到 I 时, L D L T 的特征值。 S 变成了 D 。 \begin{bmatrix}1&3\\3&1\end{bmatrix}=\begin{bmatrix}1&0\\\pmb3&1\end{bmatrix}\begin{bmatrix}1\\&-8\end{bmatrix}\begin{bmatrix}1&\pmb3\\0&1\end{bmatrix}\kern 10pt\pmb{这是}\,S=LDL^T,\pmb{它是对称的}。\\\color{blue}注意当\,L\,变换到\,I\,时,\,LDL^T\,的特征值。S\,变成了\,D。 [1331]=[1301][1−8][1031]这是S=LDLT,它是对称的。注意当L变换到I时,LDLT的特征值。S变成了D。 L D L T LDL^T LDLT 的特征值是 4 4 4 和 − 2 -2 −2, I D I T IDI^T IDIT 的特征值是 1 1 1 和 − 8 -8 −8(是主元!),随着 L L L 中的 ′ ′ 3 ′ ′ ''3'' ′′3′′ 变成零,特征值也在改变,但是要改变符号,实数特征值不得不经过零,则矩阵在此刻变成了奇异矩阵,但是当我们改变矩阵时主元一直是 1 1 1 和 − 8 -8 −8,所以它不可能奇异,则在 λ ′ s \lambda's λ′s 变为 d ′ s d's d′s 的过程中,符号不会改变。
对于任意的 S = L D L T S=LDL^T S=LDLT 重复证明一下,通过将非对角矩阵的元素变成零,使得 L L L 变为 I I I,在此过程中,主元不变也不为零, L D L T LDL^T LDLT 的特征值 λ \lambda λ 会变成 I D I T IDI^T IDIT 的特征值。由于这些特征值在它们向主元的变化过程中不可能会经过零,所以符号不会改变。 λ ′ s \lambda's λ′s 和 d ′ s d's d′s 有相同的符号。
这个结论将应用线性代数中的两部分结合了起来 —— 主元和特征值。
四、所有对称矩阵都可对角化
当 A A A 没有重复的特征值时,特征向量一定是无关的,此时 A A A 可以对角化。但是如果有重复的特征值可能导致特征向量的不足,这种情况有时会在非对称矩阵身上发生,但是对称矩阵不存在这种情况。对于对称矩阵 S = S T S=S^T S=ST,总是存在足够的特征向量使得它可以对角化。
这是一个证明思路:使用对角矩阵 diag ( c , 2 c , ⋯ , n c ) \textrm{diag}(c,2c,\cdots,nc) diag(c,2c,⋯,nc) 稍微改变一下 S S S,即加上这个对角矩阵,如果 c c c 很小时,则新的对称矩阵不会有重复的特征值,那么它会有一整套的标准正交的特征向量。当 c → 0 c\rightarrow0 c→0 时,我们可以得到原始矩阵 S S S 的 n n n 个标准正交特征向量,即使 S S S 有重复的特征值。
但是这个证明不太完整,在于如何确保小的对角矩阵可以使特征值分开呢?当然这个结论是正确的。
还有一个不同的证明,它来自于可应用于所有方阵 A A A 的新的分解法,无论 A A A 是否对称。当 S S S 是任意的实矩阵时,这个新的分解法可以很快得到 S = Q Λ Q T S=Q\Lambda Q^T S=QΛQT 且有一整套实标准正交的特征向量。 任意方阵 A 都可以分解成 Q T Q − 1 , 这里 T 是上三角矩阵且有 Q ˉ T = Q − 1 . 如果 A 有实数特征值,则 Q 和 T 可以选择成实数: Q T Q = I . \pmb{任意方阵}\,A\,\pmb{都可以分解成}\,QTQ^{-1},\pmb{这里}\,T\,\pmb{是上三角矩阵且有}\,\bar Q^T=Q^{-1}.\\\pmb{如果}\,A\,\pmb{有实数特征值,则}\,Q\,\pmb和\,T\,\pmb{可以选择成实数:}Q^TQ=I. 任意方阵A都可以分解成QTQ−1,这里T是上三角矩阵且有QˉT=Q−1.如果A有实数特征值,则Q和T可以选择成实数:QTQ=I.这是舒尔定理(Schur’s Theorem). 这里只证明为什么当 S S S 对称时 T T T 是对角矩阵( T = Λ T=\Lambda T=Λ),则 S S S 是 Q Λ Q T Q\Lambda Q^T QΛQT.
我们知道任意的对称矩阵 S S S 有实数特征值,舒尔允许有重复的 λ ′ s \lambda's λ′s:
由舒尔的 S = Q T Q − 1 S=QTQ^{-1} S=QTQ−1 可以得到 T = Q T S Q T=Q^TSQ T=QTSQ,转置后仍然是 Q T S Q Q^TSQ QTSQ.
所以当 S = S T S=S^T S=ST 时,三角矩阵 T T T 是对称的,则 T T T 一定是对角矩阵且 T = Λ T=\Lambda T=Λ.
这个证明了 S = Q Λ Q − 1 S=Q\Lambda Q^{-1} S=QΛQ−1,对称矩阵 S S S 在 Q Q Q 中有 n n n 个标准正交特征向量。
注:这个还有其它的证明,利用奇异值。
五、主要内容总结
- 每个对称矩阵 S S S 都有实数特征值和相互垂直的特征向量。
- 对角化变成了 S = Q Λ Q T S=Q\Lambda Q^T S=QΛQT,其中 Q Q Q 是一个正交特征向量矩阵。
- 所有的对称矩阵都可以对角化,即使它有重复的特征值。
- 当 S = S T S=S^T S=ST 时,特征值和主元有相同的符号。
- 每个方阵都可以 “三角化” 成 A = Q T Q − 1 A=QTQ^{-1} A=QTQ−1,如果 A = S A=S A=S,则 T = Λ T=\Lambda T=Λ。
六、例题
【例5】什么样的矩阵 A A A 有特征值 λ = 1 , − 1 \lambda=1,-1 λ=1,−1 且特征向量 x 1 = ( cos θ , sin θ ) \boldsymbol x_1=(\cos\theta,\sin\theta) x1=(cosθ,sinθ), x 2 = ( − sin θ , cos θ ) \boldsymbol x_2=(-\sin\theta,\cos\theta) x2=(−sinθ,cosθ) ?下面那些性质可以提前预测到 ? A = A T A 2 = I det A = − 1 主元的符号是 + 和 − A − 1 = A \color{blue}A=A^T\kern 10ptA^2=I\kern 10pt\det A=-1\kern 10pt主元的符号是+和-\kern 10ptA^{-1}=A A=ATA2=IdetA=−1主元的符号是+和−A−1=A解: 这些性质全都可以预测到!有实数特征值 1 , − 1 1,-1 1,−1 和标准正交特征向量 x 1 , x 2 \boldsymbol x_1,\boldsymbol x_2 x1,x2,矩阵 A = Q Λ Q T A=Q\Lambda Q^T A=QΛQT 一定是对称的。由特征向量是 1 1 1 和 − 1 -1 −1,所以 λ 2 = 1 \lambda^2=1 λ2=1, 则 Λ 2 = I \Lambda^2=I Λ2=I,可得 A 2 = I A^2=I A2=I 和 A − 1 = A A^{-1}=A A−1=A(这两个是一回事),且 det A = − 1 \det A=-1 detA=−1。由 A A A 是对称矩阵可得,两个主元的符号一定和特征值一致,即一正一负。
这个矩阵是一个反射矩阵。 A A A 乘上 x 1 \boldsymbol x_1 x1 方向的向量不变,因为 λ = 1 \lambda=1 λ=1;乘上垂直的 x 2 \boldsymbol x_2 x2 方向的向量会反向,因为 λ = − 1 \lambda=-1 λ=−1。反射矩阵 A = A Λ Q T A=A\Lambda Q^T A=AΛQT 横跨 θ − 线 \theta-线 θ−线( θ − line \theta-\textrm{line} θ−line),用 c c c 替代 cos θ \cos\theta cosθ, s s s 替代 sin θ \sin\theta sinθ: A = [ c − s s c ] [ 1 0 0 − 1 ] [ c s − s c ] = [ c 2 − s 2 2 c s 2 c s s 2 − c 2 ] = [ cos 2 θ sin 2 θ sin 2 θ − cos 2 θ ] A=\begin{bmatrix}c&-s\\s&\kern 7ptc\end{bmatrix}\begin{bmatrix}1&\kern 7pt0\\0&-1\end{bmatrix}\begin{bmatrix}\kern 7ptc&s\\-s&c\end{bmatrix}=\begin{bmatrix}c^2-s^2&2cs\\2cs&s^2-c^2\end{bmatrix}=\begin{bmatrix}\cos2\theta&\kern 7pt\sin2\theta\\\sin2\theta&-\cos2\theta\end{bmatrix} A=[cs−sc][100−1][c−ssc]=[c2−s22cs2css2−c2]=[cos2θsin2θsin2θ−cos2θ]注意向量 x = ( 1 , 0 ) \boldsymbol x=(1,0) x=(1,0) 得到 A x = ( cos 2 θ , sin 2 θ ) A\boldsymbol x=(\cos2\theta,\sin2\theta) Ax=(cos2θ,sin2θ) 是在 2 θ − 线 2\theta-线 2θ−线 上,而向量 ( cos 2 θ , sin 2 θ ) (\cos2\theta,\sin2\theta) (cos2θ,sin2θ) 会回到 θ − 线 \theta-线 θ−线 上得到 x = ( 1 , 0 ) \boldsymbol x=(1,0) x=(1,0).
【例6】求 A 3 A_3 A3 和 B 4 B_4 B4 (离散正弦和余弦)的特征值和特征向量。 A 3 = [ 2 − 1 0 − 1 2 − 1 0 − 1 2 ] B 4 = [ 1 − 1 − 1 2 − 1 − 1 2 − 1 − 1 1 ] A_3=\begin{bmatrix}\kern 7pt2&-1&\kern 7pt0\\-1&\kern 7pt2&-1\\\kern 7pt0&-1&\kern 7pt2\end{bmatrix}\kern 20ptB_4=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt2&-1\\&-1&\kern 7pt2&-1\\&&-1&\kern 7pt1\end{bmatrix} A3= 2−10−12−10−12 B4= 1−1−12−1−12−1−11 两个矩阵的 − 1 , 2 , − 1 -1,2,-1 −1,2,−1 模式是一个 “二阶差分”,就像二阶导数。 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 和 B x = λ x B\boldsymbol x=\lambda\boldsymbol x Bx=λx 就像 d 2 x / d t 2 = λ x d^2x/dt^2=\lambda x d2x/dt2=λx,这些的特征向量 x = sin k t x=\sin kt x=sinkt 和 x = cos k t x=\cos kt x=coskt 是傅里叶级数的基。
A n A_n An 和 B n B_n Bn 得到 “离散正弦” 和 “离散余弦”,这些是离散傅里叶变换(DFT:Discrete Fourier Transform)的基。DFT 是所有数字信号处理领域的绝对中心,图像处理中的 JPEG 最常使用的是大小为 n = 8 n=8 n=8 的 B 8 B_8 B8.
解: A 3 A_3 A3 的特征值是 λ = 2 − 2 、 2 \lambda=2-\sqrt2、2 λ=2−2、2 和 2 + 2 2+\sqrt2 2+2,它们的和是 6 6 6( A 3 A_3 A3 的迹),积是 4 4 4(行列式),特征向量矩阵得到 “离散正弦变换”,特征向量落在正弦曲线上: 正弦 Sines = [ 1 2 1 2 0 − 2 1 − 2 1 ] 余弦 Cosines = [ 1 1 1 1 1 2 − 1 − 1 1 − 2 1 1 − 2 − 1 2 − 1 1 − 1 1 − 1 ] 正弦矩阵 Sin matrix = A 3 的特征向量 余弦矩阵 Cosine matrix = B 4 的特征向量 \begin{array}{ll}正弦\,\textrm{\pmb{Sines}}=\begin{bmatrix}1&\sqrt2&1\\\sqrt2&0&-\sqrt2\\1&-\sqrt2&1\end{bmatrix}&余弦\,\textrm{\pmb{Cosines}}=\begin{bmatrix}1&1&1&1\\1&\sqrt2-1&-1&1-\sqrt2\\1&1-\sqrt2&-1&\sqrt2-1\\1&-1&1&-1\end{bmatrix}\\\pmb{正弦矩阵}\,\pmb{\textrm{Sin\,matrix\,=}}\,\pmb A_{\pmb3}\,\pmb{的特征向量}&\pmb{余弦矩阵}\,\textrm{\pmb{Cosine\,matrix\,=}}\,\pmb{B}_{\pmb4}\,\pmb{的特征向量}\end{array} 正弦Sines= 12120−21−21 正弦矩阵Sinmatrix=A3的特征向量余弦Cosines= 111112−11−2−11−1−1111−22−1−1 余弦矩阵Cosinematrix=B4的特征向量 B 4 B_4 B4 的特征值是 λ = 2 − 2 、 2 、 2 + 2 \lambda=2-\sqrt2、2、2+\sqrt2 λ=2−2、2、2+2 和 0 0 0(与 A 3 A_3 A3 相同加上零特征值),迹仍然是 6 6 6,但是行列式是零了。特征向量矩阵得到 4 − 点 4-点 4−点 “离散傅里叶变换”,特征向量落在余弦曲线上。这些特征向量在余弦曲线上的点落在 π / 8 , 3 π / 8 , 5 π / 8 , 7 π / 8 π/8,3π/8,5π/8,7π/8 π/8,3π/8,5π/8,7π/8 处。