奇异向量

定义

Singular Vectors 奇异向量是 奇异值分解 中连接输入正交方向和输出正交方向的两组单位向量。设

ARm×n,A=UΣVT,

并写

U=[u1um],V=[v1vn].

viRn 称为右奇异向量,uiRm 称为左奇异向量。对所有非零奇异值,

Avi=σiui,i=1,,r.

这里 r=rank(A),并且

σ1σ2σr>0.

右奇异向量属于输入空间,描述 A 在哪些输入方向上进行独立伸缩;左奇异向量属于输出空间,描述这些输入方向被送到哪些输出方向。两组向量各自正交归一,但它们通常生活在不同维数的空间中。

为什么需要两组向量

普通特征向量只处理

Ax=λx,

所以输入向量和输出向量必须属于同一个空间。这带来三个限制:矩阵必须是方阵;特征向量可能不正交;某些矩阵没有足够多的特征向量组成基。

奇异向量把问题改成

输入方向 viA输出方向 ui,

并用非负长度 σi 记录伸缩量。因此即使 A 是矩形矩阵,或者特征向量结构很差,仍然可以找到完整的输入正交基 v1,,vn 和输出正交基 u1,,um

ATA 构造右奇异向量

右奇异向量来自对称半正定矩阵 ATA。若

ATAvi=σi2vi,vi=1,

并且 σi>0,则定义

ui=Aviσi.

于是

Avi=σiui.

这说明 viATA 的单位特征向量,σi2 是对应特征值,而 uiA 作用在 vi 后再归一化得到。

关键事实是 ui 会自动正交。若 ij,则

uiTuj=(Aviσi)T(Avjσj)=viTATAvjσiσj=σj2σiσjviTvj=0.

因此对称矩阵 ATA 的正交特征向量不仅给出输入端正交基,也通过 A 生成输出端正交基。

AAT 的关系

左奇异向量也是 AAT 的特征向量。由 Avi=σiui 可得

AATui=AAT(Aviσi)=A(ATA)viσi=A(σi2vi)σi=σi2ui.

所以非零奇异值的平方同时是 ATAAAT 的非零特征值。区别在于:vi 位于输入空间 Rnui 位于输出空间 Rm

四个基本子空间中的位置

A 的秩为 r。奇异向量为 四个基本子空间 同时选择正交基:

v1,,vr 张成行空间 C(AT),vr+1,,vn 张成零空间 N(A),u1,,ur 张成列空间 C(A),ur+1,,um 张成左零空间 N(AT).

其中 vr+1,,vn 对应零奇异值,满足

Avi=0.

ur+1,,um 不由非零奇异值公式决定,而是作为 N(AT) 的任意正交基补齐 U。补齐之后有完整等式

AV=UΣ,A=UΣVT.

简化形式与完整形式

只保留非零奇异值方向时,

Vr=[v1vr],Ur=[u1ur],

满足

AVr=UrΣr.

这刻画了 A 在行空间到列空间之间的一一对应。补上零空间与左零空间的正交基后,得到

AV=UΣ.

矩阵等式 A=UΣVT 与逐向量等式 Avi=σiui 是同一个事实的两种写法。

例子

A=[3045],

ATA=[25202025],AAT=[9121241].

奇异值平方为

σ12=45,σ22=5.

右奇异向量是 ATA 的单位特征向量:

v1=12[11],v2=12[11].

再由 ui=Avi/σi

u1=110[13],u2=110[31].

于是

U=110[1331],Σ=[45005],V=12[1111].

这个例子中 A 是满秩方阵,所以没有零空间方向需要补齐;u1,u2 张成整个输出空间,v1,v2 张成整个输入空间。

对应的两个秩一方向可以直接看成数值矩阵:

σ1u1v1T=[1.51.54.54.5],σ2u2v2T=[1.51.50.50.5].

第一项给出沿 v1 输入方向到 u1 输出方向的主导耦合,第二项给出沿 v2u2 的较弱耦合;二者相加恢复 [3045]

在 data matrix 中,这种输入-输出方向解释更直观。若课程成绩矩阵以课程为行、学生为列,则右奇异向量 vi 是 combination student,左奇异向量 ui 是 combination course,σi 是这两个组合之间的成绩强度。若期刊矩阵以 key words 为行、articles 为列,则 u1 可解释为 hyperword,v1 可解释为 hyperarticle,最大的秩一项给出最强词频模式。

上移矩阵中的排序

考虑

A=[0100002000030000].

它的特征值全为 0,但奇异值为

3, 2, 1.

右奇异向量和左奇异向量在这个例子中都是标准基向量的重排,并且必须按照 3,2,1 的顺序配对。第一对 v1,u1 对应矩阵中最大的上移条目 3,第二对对应 2,第三对对应 1。如果去掉最后一行成为 3×4 矩阵,右奇异向量仍在 R4 中,左奇异向量改在 R3 中,非零奇异值仍是 3,2,1

不唯一性

奇异向量不是逐个绝对唯一的。若 σi 是单重奇异值,则可以同时把

ui, vi

替换为

ui, vi,

等式 Avi=σiui 和秩一项 σiuiviT 都不变。

若某个奇异值有重数大于 1,则对应奇异子空间中的任意正交基都可以作为奇异向量组。此时稳定的是子空间本身,而不是某一个具体基向量。这一点在数值计算和数据分析中很重要:当相邻奇异值非常接近时,单个奇异向量可能随扰动旋转,但由它们张成的低维子空间通常更有意义。

重复奇异值背后的线性代数来自对称矩阵的重复特征值。对 S=ATA,先选单位特征向量 q1 并补成正交矩阵 Q1,则

Q1TSQ1=[λ1wT0Sn1].

由于这个分块矩阵仍对称,必有 w=0,且 Sn1 对称。于是可以在 q1 上继续归纳;遇到重复特征值时,只是在同一特征子空间内选择任意正交基。这样得到的正交特征向量就是可用于 SVD 的右奇异向量,左奇异向量再由 ui=Avi/σi 给出。

相邻概念