正交投影

定义

Orthogonal Projection) 正交投影是把向量送到某个子空间上的最近点,同时要求剩余误差垂直于该子空间。若 SRm 是子空间,bRm,则 bS 上的正交投影是唯一向量 pS,满足

b=p+e,e=bpS.

等价地,

p=argminySby.

正交投影的本质不是“把图形垂直压下去”的直观动作,而是一个内积条件:

bp,y=0,yS.

在实有限维空间中,这个条件写成 eTy=0。它同时保证 p 是最近点,因为对任意 yS

by=e+(py),

且两项正交,所以

by2=e2+py2e2.

实际计算时可以按三步走:先由正交误差条件求最佳系数 x^,再得到投影向量 p,最后把 p 写成 Pb 读出投影矩阵。直线投影和列空间投影的公式都是这三步的不同维数版本。

直线上的正交投影

若目标子空间是一条过原点的直线

S=span(a),a0,

则投影点必有形式

p=x^a.

正交误差条件为

aT(bx^a)=0.

因此

x^=aTbaTa,

并且

p=aaTbaTa.

这就是向量投影的基本公式。误差为

e=bp=baaTbaTa,

并满足

aTe=0.

直线投影矩阵为

P=aaTaTa,

所以

p=Pb,e=(IP)b.

该矩阵满足

P2=P=PT.

投影到列空间

若目标子空间由矩阵 A 的列张成,即

S=C(A),

则正交投影点写成

p=Ax^.

误差为

e=bAx^.

正交投影要求误差垂直于整个列空间,等价于垂直于 A 的每一列:

AT(bAx^)=0.

这给出正规方程

ATAx^=ATb.

A 的列线性独立,则

x^=(ATA)1ATb,

投影点为

p=Ax^=A(ATA)1ATb.

对应的正交投影矩阵

P=A(ATA)1AT.

这里的可逆性边界是

ATA 可逆A 列线性独立.

理由是

N(ATA)=N(A),

因为 ATAx=0 蕴含

Ax2=xTATAx=0.

若列向量相关,应先换成列空间的一组基,或用 QR、SVD、伪逆来表示同一个正交投影。

这里的逆矩阵只属于 ATA,不能在一般情形下拆成 A1(AT)1。当 A 是矩形矩阵时 A1 不存在;当 A 方阵可逆时,C(A) 已经是全空间,投影矩阵才等于 I

伪逆给出的投影

A 的列相关时,ATA 不可逆,但到列空间的正交投影仍然存在。若 A+伪逆,则

PC(A)=AA+.

这条公式不要求 A 列满秩。若 A=UΣVT,秩为 r,则

AA+=i=1ruiuiT,

正好是到 u1,,ur 张成的列空间的投影。同理,

A+A=i=1rviviT

是到行空间 C(AT) 的投影。

秩一矩阵

A=σuvT

中若 u,v 是单位向量,则

A+=vuTσ,AA+=uuT,A+A=vvT.

这说明伪逆把投影公式从满列秩情形推广到了任意秩情形。

投影矩阵的结构

正交投影矩阵有两个核心代数特征:

P2=P,PT=P.

幂等性 P2=P 表示投影后的向量已经在目标子空间中;对称性 PT=P 表示误差方向与目标子空间正交。反过来,实矩阵只要同时满足这两个条件,就是某个子空间上的正交投影矩阵。

P 投影到 S,则

C(P)=S,N(P)=S.

互补矩阵

IP

也是正交投影矩阵,并且投影到 S

(IP)2=IP,(IP)T=IP.

于是

b=Pb+(IP)b

是标准的正交分解,且

b2=Pb2+(IP)b2.

若只有 P2=P 而没有 PT=P,矩阵仍表示投影,但一般是斜投影;它的误差方向不一定垂直于目标子空间,因此不保证给出最近点。

标准例子

b=[234]

投影到 z 轴,得到

p1=[004],P1=[000000001].

把同一个 b 投影到 xy 平面,得到

p2=[230],P2=[100010000].

这两个子空间互为正交补,所以

p1+p2=b,P1+P2=I.

再看一个列空间投影。令

A=[101112],b=[600].

ATAx^=ATb

x^=[53].

因此

p=Ax^=[521],e=bp=[121].

检查可知

ATe=[111012][121]=[00],

所以 e 垂直于列空间,p 就是最近点。对应投影矩阵为

P=16[521222125],

它满足 P2=P=PT,且 Pb=p

核心要点

相邻概念

投影定理给出正交投影存在、唯一和最近点性质;正交误差记录误差的垂直判别;投影矩阵把投影写成 p=Pb最小二乘法把投影应用到不可精确求解的方程组 Ax=b。当目标空间是 C(A) 时,正交投影的全部计算都围绕

AT(bAx^)=0

展开,这条式子就是从几何正交性进入代数计算的桥梁。