Schur分解

Schur Decomposition Schur 分解

Schur 分解把任意复方阵酉相似到上三角矩阵。对任意

ACn×n,

都存在列向量标准正交的 酉矩阵 Q 和上三角矩阵 T,使得

A=QTQ1=QTQH,Q1=QH.

等价地,

QHAQ=T.

这里 Q=[q1,,qn] 满足 qiHqj=δij。Schur 分解只要求 A 是方阵,不要求 A 可对角化。

存在性、唯一性与域

复 Schur 分解对任意复方阵都存在,因为复数域中每个特征多项式都有根,归纳构造总能从一个特征向量开始。实方阵若允许复酉矩阵,也可直接使用复 Schur 分解;若要求所有矩阵保持实数,则得到实 Schur 形式,矩阵不再完全上三角,而是准上三角,非实共轭特征值以 2×2 实块出现。

Schur 分解一般不唯一。对角线上特征值的顺序可以通过酉相似变换重新排列;重复特征值对应的不变子空间也有基选择自由。真正唯一的是特征值的多重集合,以及在给定排序和不变子空间选择后得到的三角化结构。若 A 正规,则上三角因子被迫退化为对角矩阵,此时 Schur 分解成为谱分解。

三角形式

T 是上三角矩阵:

T=[t11t12t1n0t22t2n00tnn].

因为相似变换保持特征值,而上三角矩阵的特征值就是对角线元素,所以

t11,t22,,tnn

正是 A 的特征值,按代数重数重复出现。换句话说,Schur 分解总能把谱信息放到对角线上,即使矩阵没有足够多特征向量而无法对角化。

构造思想

Schur 分解的证明可以用归纳理解。任意复方阵至少有一个特征值 λ1 和单位特征向量 q1。把 q1 扩展成 Cn 的一组标准正交基,得到酉矩阵

Q1=[q1, q2,,qn].

由于 Aq1=λ1q1,矩阵 Q1HAQ1 的第一列在第一行以下全为 0

Q1HAQ1=[λ10A1].

再对右下角的 (n1)×(n1) 方阵 A1 重复同样过程,就得到完整的上三角 T。这个构造说明 Q 的前 k 列张成一个 A 的不变子空间,而不必每一列都单独是 A 的特征向量。

这个“不变子空间链”是 Schur 分解区别于对角化的关键。对角化要求每个坐标轴都是一维不变子空间;Schur 分解只要求前 k 个坐标轴张成的子空间整体不变。因此即使矩阵只有一个特征向量方向,也仍可被放入上三角坐标系中。

与对角化

A 可对角化,则存在可逆矩阵 X 使

A=XΛX1.

Schur 分解比它更普遍,因为 Q 总可取为酉矩阵,但 T 只保证是三角矩阵,不保证是对角矩阵。

A正规矩阵 时,Schur 分解进一步变成谱分解。若

A=QTQH

AHA=AAH,则 T 也满足

THT=TTH.

一个上三角正规矩阵只能是对角矩阵,所以

T=Λ,A=QΛQH.

因此正规矩阵恰好是那些能被酉矩阵对角化的矩阵。一般非正规矩阵的 T 会保留非零上三角项,它们表示特征方向之间无法用正交基完全分离的部分。

与 Jordan 形式

Jordan矩阵 也适用于任意复方阵,但它使用一般可逆矩阵和广义特征向量:

A=BJB1.

Jordan 形式更接近代数分类,却对扰动很敏感;Schur 分解使用酉相似变换,保持长度与内积,数值上更稳定。实际计算特征值时,通常更偏向 Schur 形式,而不是直接追求 Jordan 形式。

A 不可对角化,Schur 分解仍然存在。例如 Jordan 块

J=[λ10λ]

本身已经是上三角 Schur 形的一种,但它不能被相似到对角矩阵。Schur 分解的优势正是在这里:它不把不可消除的耦合隐藏起来,而是放在上三角区域。

数值算法语义

QR 特征值算法可以看作逐步逼近 Schur 形式。先分解

Ak=QkRk,

再反转因子得到

Ak+1=RkQk=Qk1AkQk.

每一步都是相似变换,所以特征值不变;在合适条件与移位策略下,矩阵会逐渐接近上三角形式,特征值显现在对角线上。

使用酉或正交矩阵的原因是数值稳定:酉相似变换不改变二范数长度,也不放大正交关系。对大型稀疏矩阵,常先化为 Hessenberg 形式,再做 QR 迭代,以降低每步成本。

边界上,Schur 分解不会消除非正规耦合,而是把它压到上三角的非对角区域。若特征值高度重合,T 的对角线信息可能不足以揭示几何重数,必须结合上三角部分或转向 Jordan 理论理解缺失的特征向量。数值算法中通常接受 Schur 形式作为稳定终点,而不继续追求对扰动敏感的 Jordan 块。

实矩阵情形

若实矩阵允许使用复数酉矩阵,也适用同一个 Schur 分解。若坚持所有矩阵都为实数,则实 Schur 形式通常是准上三角矩阵:实特征值对应 1×1 块,成对复特征值对应 2×2 块。这样可以在实数计算中保留复共轭特征值的信息。

相邻概念

相似矩阵 解释了为什么 AT 有相同特征值。酉矩阵 保证 Schur 分解中的换基稳定且保持内积。正规矩阵 是 Schur 分解退化为酉对角化的精确条件。矩阵对角化 是三角化在有足够特征向量时的更强形式,而 Schur 分解是任意方阵都可达到的稳定标准形。