定义
Singular Vectors 奇异向量是 奇异值分解 中连接输入正交方向和输出正交方向的两组单位向量。设
并写
则 称为右奇异向量, 称为左奇异向量。对所有非零奇异值,
这里 ,并且
右奇异向量属于输入空间,描述 在哪些输入方向上进行独立伸缩;左奇异向量属于输出空间,描述这些输入方向被送到哪些输出方向。两组向量各自正交归一,但它们通常生活在不同维数的空间中。
为什么需要两组向量
普通特征向量只处理
所以输入向量和输出向量必须属于同一个空间。这带来三个限制:矩阵必须是方阵;特征向量可能不正交;某些矩阵没有足够多的特征向量组成基。
奇异向量把问题改成
并用非负长度 记录伸缩量。因此即使 是矩形矩阵,或者特征向量结构很差,仍然可以找到完整的输入正交基 和输出正交基 。
从 构造右奇异向量
右奇异向量来自对称半正定矩阵 。若
并且 ,则定义
于是
这说明 是 的单位特征向量, 是对应特征值,而 由 作用在 后再归一化得到。
关键事实是 会自动正交。若 ,则
因此对称矩阵 的正交特征向量不仅给出输入端正交基,也通过 生成输出端正交基。
与 的关系
左奇异向量也是 的特征向量。由 可得
所以非零奇异值的平方同时是 与 的非零特征值。区别在于: 位于输入空间 , 位于输出空间 。
四个基本子空间中的位置
设 的秩为 。奇异向量为 四个基本子空间 同时选择正交基:
张成行空间张成零空间张成列空间张成左零空间其中 对应零奇异值,满足
不由非零奇异值公式决定,而是作为 的任意正交基补齐 。补齐之后有完整等式
简化形式与完整形式
只保留非零奇异值方向时,
满足
这刻画了 在行空间到列空间之间的一一对应。补上零空间与左零空间的正交基后,得到
矩阵等式 与逐向量等式 是同一个事实的两种写法。
例子
对
有
奇异值平方为
右奇异向量是 的单位特征向量:
再由 得
于是
这个例子中 是满秩方阵,所以没有零空间方向需要补齐; 张成整个输出空间, 张成整个输入空间。
对应的两个秩一方向可以直接看成数值矩阵:
第一项给出沿 输入方向到 输出方向的主导耦合,第二项给出沿 到 的较弱耦合;二者相加恢复 。
在 data matrix 中,这种输入-输出方向解释更直观。若课程成绩矩阵以课程为行、学生为列,则右奇异向量 是 combination student,左奇异向量 是 combination course, 是这两个组合之间的成绩强度。若期刊矩阵以 key words 为行、articles 为列,则 可解释为 hyperword, 可解释为 hyperarticle,最大的秩一项给出最强词频模式。
上移矩阵中的排序
考虑
它的特征值全为 ,但奇异值为
右奇异向量和左奇异向量在这个例子中都是标准基向量的重排,并且必须按照 的顺序配对。第一对 对应矩阵中最大的上移条目 ,第二对对应 ,第三对对应 。如果去掉最后一行成为 矩阵,右奇异向量仍在 中,左奇异向量改在 中,非零奇异值仍是 。
不唯一性
奇异向量不是逐个绝对唯一的。若 是单重奇异值,则可以同时把
替换为
等式 和秩一项 都不变。
若某个奇异值有重数大于 ,则对应奇异子空间中的任意正交基都可以作为奇异向量组。此时稳定的是子空间本身,而不是某一个具体基向量。这一点在数值计算和数据分析中很重要:当相邻奇异值非常接近时,单个奇异向量可能随扰动旋转,但由它们张成的低维子空间通常更有意义。
重复奇异值背后的线性代数来自对称矩阵的重复特征值。对 ,先选单位特征向量 并补成正交矩阵 ,则
由于这个分块矩阵仍对称,必有 ,且 对称。于是可以在 上继续归纳;遇到重复特征值时,只是在同一特征子空间内选择任意正交基。这样得到的正交特征向量就是可用于 SVD 的右奇异向量,左奇异向量再由 给出。
相邻概念
- 奇异值:记录 中的非负伸缩量。
- 奇异值分解:把所有奇异向量合并为 。
- 四个基本子空间:说明哪些奇异向量张成行空间、列空间、零空间和左零空间。
- 正交矩阵:保证 与 的列向量是正交归一基。
- 特征值和特征向量:右奇异向量来自 的特征向量,左奇异向量来自 的特征向量。