投影定理

#Mathematics #FunctionalAnalysis #ProjectionTheorem #HilbertSpace

投影定理，Projection Theorem 投影定理是Hilbert空间理论中最基本且最重要的定理之一，它不仅是泛函分析的核心结果，还在最小二乘法、信号处理、优化理论、偏微分方程等领域有广泛应用。投影定理解决了最佳逼近问题：给定Hilbert空间中的一个点和闭凸集，找到该集合中与这个点最近的元素。

一、问题的提出

1.1 最佳逼近问题

设 $H$ 是Hilbert空间， $M \subset H$ 是一个子集， $x \in H$ 是一个给定点。我们想要找到 $u \in M$ 使得：

∥ x - u ∥ = inf_{v \in M} ∥ x - v ∥

即：在 $M$ 中找到与 $x$ 距离最近的点 $u$ 。

几何直观（在 $R^{3}$ 中）：

若 $M$ 是平面， $u$ 是 $x$ 在平面上的垂足
若 $M$ 是直线， $u$ 是 $x$ 在直线上的垂足
$\vec{x u}$ 与 $M$ "垂直"

1.2 为什么需要投影定理？

有限维情况（ $R^{n}$ ）：

闭集上的连续函数 $∥ x - \cdot ∥$ 必有最小值
唯一性由凸性保证

无穷维情况：

需要完备性保证Cauchy序列收敛
需要凸性保证唯一性
需要正交性刻画最优条件

二、投影定理的陈述

2.1 一般形式（闭凸集）

定理（投影定理）：设 $H$ 是Hilbert空间， $M \subset H$ 是非空闭凸集。对任意 $x \in H$ ：

存在性：存在唯一的 $u \in M$ 使得：
$∥ x - u ∥ = inf_{v \in M} ∥ x - v ∥$
变分不等式（最优性条件）：
$Re ⟨ x - u, v - u ⟩ \leq 0, \forall v \in M$
几何意义： $x - u$ 与 $M$ "垂直"（在某种意义上）

证明（存在性）：

步骤1：设 $d = inf_{v \in M} ∥ x - v ∥$ ，取极小化序列 ${v_{n}}_{n = 1}^{\infty} \subset M$ 使得 $∥ x - v_{n} ∥ \to d$ 。

步骤2：证明 ${v_{n}}$ 是Cauchy序列。利用平行四边形法则：

\begin{aligned} ∥ v_{m} - v_{n} ∥^{2} & = ∥ (x - v_{n}) - (x - v_{m}) ∥^{2} \\ = 2 ∥ x - v_{n} ∥^{2} + 2 ∥ x - v_{m} ∥^{2} - | (x - v_{n}) + (x - v_{m}) |^{2} \\ = 2 ∥ x - v_{n} ∥^{2} + 2 ∥ x - v_{m} ∥^{2} - 4 {‖ x - \frac{v_{n} + v_{m}}{2} ‖}^{2} \end{aligned}

由于 $M$ 是凸集， $\frac{v_{n} + v_{m}}{2} \in M$ ，故：

{‖ x - \frac{v_{n} + v_{m}}{2} ‖}^{2} \geq d^{2}

因此：

∥ v_{m} - v_{n} ∥^{2} \leq 2 ∥ x - v_{n} ∥^{2} + 2 ∥ x - v_{m} ∥^{2} - 4 d^{2} \to 0 (m, n \to \infty)

步骤3：由 $H$ 的完备性，存在 $u \in H$ 使得 $v_{n} \to u$ 。由 $M$ 是闭集， $u \in M$ 。由范数的连续性， $∥ x - u ∥ = d$ 。∎

证明（唯一性）：

设 $u_{1}, u_{2} \in M$ 都是最小范数解。由凸性， $\frac{u_{1} + u_{2}}{2} \in M$ 。利用平行四边形法则：

\begin{aligned} ∥ x - \frac{u_{1} + u_{2}}{2} ∥^{2} & = {‖ \frac{(x - u_{1}) + (x - u_{2})}{2} ‖}^{2} \\ \leq \frac{1}{4} (∥ x - u_{1} ∥^{2} + ∥ x - u_{2} ∥^{2} + 2 Re ⟨ x - u_{1}, x - u_{2} ⟩) \end{aligned}

但由于 $∥ x - u_{1} ∥ = ∥ x - u_{2} ∥ = d$ 是最小值，必有 $∥ x - \frac{u_{1} + u_{2}}{2} ∥ = d$ ，这推出 $u_{1} = u_{2}$ 。∎

2.2 特殊形式（闭线性子空间）

定理：设 $M$ 是Hilbert空间 $H$ 的闭线性子空间。对任意 $x \in H$ ，存在唯一的分解：

x = u + w, u \in M, w \in M^{⊥}

其中 $M^{⊥} = {z \in H : ⟨ z, v ⟩ = 0, \forall v \in M}$ 是 $M$ 的正交补。

等价条件：

⟨ x - u, v ⟩ = 0, \forall v \in M

即 $x - u ⊥ M$ 。

证明：由闭凸集的投影定理，取 $u$ 为最小范数解。由于 $M$ 是线性子空间，对任意 $v \in M$ 和 $α \in C$ ， $u + α v \in M$ 。由变分不等式：

Re ⟨ x - u, (u + α v) - u ⟩ = Re (α ⟨ x - u, v ⟩) \leq 0

由于 $α$ 可任意取值（正负、实虚），必有 $⟨ x - u, v ⟩ = 0$ 。∎

几何意义： $u$ 是 $x$ 在 $M$ 上的正交投影。

三、正交投影算子

3.1 定义与基本性质

定义：设 $M$ 是Hilbert空间 $H$ 的闭线性子空间。正交投影算子 $P : H \to M$ 定义为：

P x = u, 其中 x = u + w, u \in M, w \in M^{⊥}

基本性质：

定理 1：正交投影算子 $P$ 满足：

线性性： $P (α x + β y) = α P x + β P y$
幂等性： $P^{2} = P$ （ $P$ 是投影）
自伴性： $⟨ P x, y ⟩ = ⟨ x, P y ⟩$
范数： $∥ P ∥ = 1$ （若 $M \neq {0}$ ）

证明：

线性性：由投影定理，分解是线性的。
幂等性：对任意 $x \in H$ ， $P x \in M$ ，故 $P (P x) = P x$ 。
自伴性：设 $x = u_{1} + w_{1}$ ， $y = u_{2} + w_{2}$ （ $u_{i} \in M, w_{i} \in M^{⊥}$ ）：
$⟨ P x, y ⟩ = ⟨ u_{1}, u_{2} + w_{2} ⟩ = ⟨ u_{1}, u_{2} ⟩$
类似地：
$⟨ x, P y ⟩ = ⟨ u_{1} + w_{1}, u_{2} ⟩ = ⟨ u_{1}, u_{2} ⟩$
范数： $∥ P x ∥ \leq ∥ x ∥$ （由正交分解），且 $∥ P ∥ \geq ∥ P^{2} ∥ = ∥ P ∥$ ，故 $∥ P ∥ = 1$ （当 $M \neq {0}$ ）。∎

3.2 投影算子的刻画

定理：有界线性算子 $P : H \to H$ 是正交投影算子的充要条件是：

$P^{2} = P$ （幂等）
$P^{*} = P$ （自伴）

证明：

( $⟹$ )：已证。
( $⟸$ )：设 $M = Ran P$ 。由 $P^{2} = P$ ， $M$ 是闭子空间。对任意 $x \in H$ ，设 $P x = u \in M$ ， $(I - P) x = w$ 。由 $P^{*} = P$ ： $⟨ u, w ⟩ = ⟨ P x, (I - P) x ⟩ = ⟨ x, P (I - P) x ⟩ = ⟨ x, (P - P^{2}) x ⟩ = 0$ 故 $w \in M^{⊥}$ 。∎

四、应用

4.1 最小二乘法

问题：给定 $A \in C^{m \times n}$ 和 $b \in C^{m}$ ，求解线性方程组 $A x = b$ （可能无解）。

最小二乘解：求 $x$ 使得：

∥ A x - b ∥ = min_{y \in C^{n}} ∥ A y - b ∥

几何解释：

设 $M = Ran A = {A x : x \in C^{n}}$ （ $C^{m}$ 的子空间）
求 $b$ 在 $M$ 上的正交投影 $u = P x$
$u = A x$ 是 $b$ 的最佳逼近

正交性条件（由投影定理）：

⟨ b - A x, A y ⟩ = 0, \forall y \in C^{n}

等价于正规方程组：

A^{*} (b - A x) = 0 ⟹ A^{*} A x = A^{*} b

解：

若 $rank A = n$ （满列秩），则 $A^{*} A$ 可逆，唯一解： $x = (A^{*} A)^{- 1} A^{*} b$
否则，有无穷多解，最小范数解为： $x = A^{+} b$ 其中 $A^{+}$ 是Moore-Penrose伪逆。

4.2 信号处理

问题：从观测信号 $y (t) = s (t) + n (t)$ 中恢复有用信号 $s (t)$ ，其中 $n (t)$ 是噪声。

投影方法：

假设 $s (t)$ 在某个子空间 $M$ 中（如带限信号空间）
求 $y$ 在 $M$ 上的正交投影 $\hat{s} = P y$
$\hat{s}$ 是最优估计（最小均方误差）

例子：低通滤波

$M$ ：低频信号空间
$P$ ：低通滤波算子
$\hat{s} = P y$ ：滤除高频噪声

4.3 函数逼近

问题：给定 $f \in L^{2} [a, b]$ 和有限维子空间 $M = span {ϕ_{1}, \dots, ϕ_{n}}$ ，求最佳逼近：

min_{g \in M} ∥ f - g ∥_{L^{2}}

正交投影：设 ${ϕ_{1}, \dots, ϕ_{n}}$ 是线性无关的，最佳逼近为：

g^{*} = \sum_{i = 1}^{n} c_{i} ϕ_{i}

其中系数 ${c_{i}}$ 满足投影条件：

⟨ f - g^{*}, ϕ_{j} ⟩ = 0, j = 1, \dots, n

即Galerkin方程组：

\sum_{i = 1}^{n} c_{i} ⟨ ϕ_{i}, ϕ_{j} ⟩ = ⟨ f, ϕ_{j} ⟩, j = 1, \dots, n

写成矩阵形式：

G c = b

其中 $G_{i j} = ⟨ ϕ_{i}, ϕ_{j} ⟩$ 是Gram矩阵， $b_{j} = ⟨ f, ϕ_{j} ⟩$ 。

特例（正交基）：若 ${ϕ_{i}}$ 是标准正交的，则：

c_{i} = ⟨ f, ϕ_{i} ⟩

这就是Fourier系数！

4.4 偏微分方程

Galerkin方法：求解偏微分方程的弱解。

例子（Poisson方程）：

{\begin{cases} - Δ u = f & in Ω \\ u = 0 & on \partial Ω \end{cases}

弱形式：求 $u \in H_{0}^{1} (Ω)$ 使得：

\int_{Ω} \nabla u \cdot \nabla v d x = \int_{Ω} f v d x, \forall v \in H_{0}^{1} (Ω)

Galerkin逼近：取有限维子空间 $V_{h} \subset H_{0}^{1} (Ω)$ ，求 $u_{h} \in V_{h}$ 使得：

\int_{Ω} \nabla u_{h} \cdot \nabla v_{h} d x = \int_{Ω} f v_{h} d x, \forall v_{h} \in V_{h}

这是在 $V_{h}$ 上的正交投影问题（在能量内积下）。

4.5 统计学（回归分析）

线性回归：给定数据 $(x_{i}, y_{i})_{i = 1}^{m}$ ，拟合模型 $y = β_{0} + β_{1} x$ 。

最小二乘估计：求 ${\hat{β}}_{0}, {\hat{β}}_{1}$ 使得：

\sum_{i = 1}^{m} (y_{i} - {\hat{β}}_{0} - {\hat{β}}_{1} x_{i})^{2} = min_{β_{0}, β_{1}} \sum_{i = 1}^{m} (y_{i} - β_{0} - β_{1} x_{i})^{2}

矩阵形式：设 $y = (y_{1}, \dots, y_{m})^{T}$ ， $X = (\begin{matrix} 1 & x_{1} \\ ⋮ & ⋮ \\ 1 & x_{m} \end{matrix})$ ， $β = (β_{0}, β_{1})^{T}$ 。则：

\hat{β} = (X^{T} X)^{- 1} X^{T} y

这与投影定理中的正规方程组完全一致！

五、推广

5.1 斜投影

定义：设 $H = M \oplus N$ （直和分解，不一定正交），定义斜投影算子 $P : H \to M$ 为：

P x = m, 其中 x = m + n, m \in M, n \in N

性质：

$P^{2} = P$ （幂等）
但 $P^{*} \neq P$ （不自伴，除非 $N = M^{⊥}$ ）

5.2 Banach空间的度量投影

问题：在Banach空间中，最佳逼近问题更复杂：

存在性：需要空间是自反的
唯一性：需要空间是严格凸的
没有"正交"概念

例子：在 $L^{1}$ 空间中，最佳逼近可能不唯一。

参考链接

参考文献

Rudin, W. (1991). Functional Analysis (2nd ed.). McGraw-Hill.
Lax, P. D. (2002). Functional Analysis. Wiley-Interscience.
Kreyszig, E. (1978). Introductory Functional Analysis with Applications. Wiley.
Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.

AI 结构化补充（2026-05-02）

定理陈述

Projection Theorem 投影定理说明：在带有内积的空间中，把一个向量投到一个闭线性子空间上，等价于把它分解成“子空间内的最近点”和“垂直于该子空间的误差”。有限维线性代数中的投影、正规方程和最小二乘，都是这个定理的具体形式。

设 $S$ 是内积空间中的线性子空间， $b$ 是给定向量。若存在

b = p + e, p \in S, e \in S^{⊥},

则 $p$ 称为 $b$ 在 $S$ 上的正交投影。这个 $p$ 是 $S$ 中离 $b$ 最近的唯一向量：

∥ b - p ∥ = min_{y \in S} ∥ b - y ∥ .

反过来，若 $p \in S$ 是最近点，则误差

e = b - p

必须满足

e ⊥ S .

在有限维空间中，每个子空间都是闭的，因此上述结论总可用于直线、平面和列空间。若在 Hilbert 空间中工作，则需要 $S$ 是闭子空间；不闭的子空间可能只有距离下确界，而没有真正达到下确界的最近点。

列空间形式

令

A = [a_{1} \dots a_{n}] \in R^{m \times n},

目标子空间为列空间 $C (A)$ 。投影点一定可以写成

p = A \hat{x} .

误差为

e = b - A \hat{x} .

投影定理要求 $e$ 垂直于 $C (A)$ ，也就是垂直于 $A$ 的每一列：

A^{T} (b - A \hat{x}) = 0.

这就是正规方程

A^{T} A \hat{x} = A^{T} b .

当 $A$ 的列线性无关时， $A^{T} A$ 可逆，因而

\hat{x} = (A^{T} A)^{- 1} A^{T} b,

并且

p = A \hat{x} = A (A^{T} A)^{- 1} A^{T} b .

把乘在 $b$ 前面的线性算子单独写出，得到

P = A (A^{T} A)^{- 1} A^{T}, p = P b .

这个矩阵的列空间就是目标空间 $C (A)$ ；当 $A$ 有 $n$ 个线性无关列时， $rank P = n$ 。

线投影是这个公式的 $n = 1$ 情形。若 $A$ 只有一列 $a$ ，则

p = a \frac{a^{T} b}{a^{T} a} .

这正是向量投影中的直线投影公式。

$A^{T} A$ 的可逆边界

公式

\hat{x} = (A^{T} A)^{- 1} A^{T} b

的前提不是 $A$ 是方阵，而是 $A$ 的列向量线性无关。关键事实是

N (A^{T} A) = N (A) .

一方面，若 $A x = 0$ ，则自然有 $A^{T} A x = 0$ 。另一方面，若

A^{T} A x = 0,

左乘 $x^{T}$ 得

x^{T} A^{T} A x = (A x)^{T} (A x) = ∥ A x ∥^{2} = 0,

所以 $A x = 0$ 。因此两者零空间相同。

于是

A^{T} A 可逆 ⟺ N (A^{T} A) = {0} ⟺ N (A) = {0} ⟺ A 列线性独立 .

若列向量相关，正规方程仍能表达正交条件，但不能直接用 $(A^{T} A)^{- 1}$ 写出唯一系数；应改用列空间的一组基、QR 分解、SVD 或 Moore-Penrose 伪逆。

这里不能把 $(A^{T} A)^{- 1}$ 误拆成 $A^{- 1} (A^{T})^{- 1}$ 。列空间投影中的 $A$ 通常是矩形矩阵，没有 $A^{- 1}$ ；如果 $A$ 恰好是方阵且可逆，那么 $C (A) = R^{m}$ ，投影矩阵确实是 $I$ ，误差也确实是 $0$ ，但那已经是特殊满空间情形。

投影矩阵与互补分解

当 $A$ 列满秩时，投影到 $C (A)$ 的投影矩阵是

P = A (A^{T} A)^{- 1} A^{T} .

对任意 $b$ ，

p = P b, e = b - p = (I - P) b .

这个矩阵满足

P^{2} = P, P^{T} = P .

幂等性来自“已经在 $C (A)$ 中的向量再投影仍是自己”，对称性来自正交投影的误差方向。互补算子也满足

(I - P)^{2} = I - P, (I - P)^{T} = I - P,

并且把向量投到

C (A)^{⊥} = N (A^{T}) .

因此每个向量都有正交分解

b = P b + (I - P) b,

两部分分别属于 $C (A)$ 与 $C (A)^{⊥}$ 。

边界情形也由此统一：若 $C (A) = R^{m}$ ，则 $P = I$ 、误差为零；若 $C (A) = {0}$ ，则 $P = 0$ 、整个 $b$ 都是误差；若 $b \in C (A)$ ，则 $P b = b$ ；若 $b ⊥ C (A)$ ，则 $P b = 0$ 。

例子

把

b = [\begin{matrix} 2 \\ 3 \\ 4 \end{matrix}]

投影到 $z$ 轴和 $x y$ 平面上，得到

p_{1} = [\begin{matrix} 0 \\ 0 \\ 4 \end{matrix}], p_{2} = [\begin{matrix} 2 \\ 3 \\ 0 \end{matrix}] .

对应矩阵为

P_{1} = [\begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \end{matrix}], P_{2} = [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{matrix}] .

它们满足

P_{1}^{2} = P_{1}, P_{2}^{2} = P_{2}, P_{1} + P_{2} = I .

$z$ 轴与 $x y$ 平面互为正交补，所以这两个投影把同一个向量拆成两个正交分量。

再看列空间例子：

A = [\begin{matrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{matrix}], b = [\begin{matrix} 6 \\ 0 \\ 0 \end{matrix}] .

先计算

A^{T} A = [\begin{matrix} 3 & 3 \\ 3 & 5 \end{matrix}], A^{T} b = [\begin{matrix} 6 \\ 0 \end{matrix}] .

由正规方程可得

\hat{x} = [\begin{matrix} 5 \\ - 3 \end{matrix}], p = A \hat{x} = [\begin{matrix} 5 \\ 2 \\ - 1 \end{matrix}], e = b - p = [\begin{matrix} 1 \\ - 2 \\ 1 \end{matrix}] .

也就是 $p = (5, 2, - 1)^{T}$ ， $e = (1, - 2, 1)^{T}$ 。
误差与 $A$ 的两列都正交：

{[\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}]}^{T} e = 0, {[\begin{matrix} 0 \\ 1 \\ 2 \end{matrix}]}^{T} e = 0.

故 $p$ 是 $C (A)$ 中离 $b$ 最近的点。对应的投影矩阵为

P = \frac{1}{6} [\begin{matrix} 5 & 2 & - 1 \\ 2 & 2 & 2 \\ - 1 & 2 & 5 \end{matrix}],

并且 $P b = p$ 、 $(I - P) b = e$ 。

理论位置

投影定理把正交投影、正交误差、投影矩阵和最小二乘法连接在一起。几何上，它说最近点由垂直误差刻画；代数上，它给出正规方程；矩阵上，它给出 $P = A (A^{T} A)^{- 1} A^{T}$ ；泛函分析中，它进一步推广为 Hilbert 空间闭凸集上的最佳逼近定理。

对闭凸集 $M$ ，最近点仍唯一，但正交性改写为变分不等式：

Re ⟨ b - p, y - p ⟩ \leq 0, y \in M .

当 $M$ 是线性子空间时， $y - p$ 可沿正负方向任意变化，这个不等式就退化为严格的正交条件。