归一化函数

Normalization

把输入数据调整到特定范围或分布，以便后续处理更稳定、更高效。

是机器学习中常用的数据预处理技术，旨在将不同尺度、量纲的特征转换到统一的范围或分布。这对于许多机器学习算法的性能至关重要。

加速收敛: 对于使用梯度下降等优化算法的模型（如神经网络、逻辑回归），如果特征的尺度差异很大，损失函数的等高线会非常扁平，导致梯度下降路径呈“之”字形，收敛速度慢。归一化/标准化可以使等高线更接近圆形，加速收敛。
避免特征主导: 某些特征的数值范围可能远大于其他特征。如果不进行处理，这些大数值特征可能会在距离计算或权重更新中占据主导地位，使得模型无法公平地学习所有特征的重要性。
提高模型精度和稳定性: 对于依赖距离度量的算法（如 K 近邻、支持向量机），归一化/标准化可以确保所有特征对距离的贡献是公平的。对于基于权重的模型，它有助于防止权重过大或过小，提高模型的稳定性。

\begin{array}{r} \hat{x} = \frac{x - x_{m i n}}{x_{m a x} - x_{m i n}} \end{array}

\begin{array}{r} \hat{x} = \frac{x - μ}{σ} \end{array}

标准化为均值 0 方差1

公式: 通过移动小数点位置来归一化数据。 $x^{'} = \frac{x}{10^{j}}$ 其中 $j$ 是使得 $| x^{'} | < 1$ 的最小整数。
特点: 简单，但数据范围不固定，且不改变数据分布。
适用场景: 当数据范围差异不大，且对精度要求不高时。

深度学习中，隐藏层输出归一化，加速训练。

在每个 mini-batch 上, 计算均值 $μ_{batch}$ 和方差 $σ_{batch}^{2}$ , 然后归一化:

\hat{x} = \frac{x - μ_{batch}}{\sqrt{σ_{batch}^{2}} + ϵ}

再引入两个可学习参数（仿射变换）:

y = γ \hat{x} + β

应用:

在单一样本的所有神经元上计算均值方差：

\hat{x} = \frac{x - μ_{l a y e r}}{\sqrt{σ_{l a y e r}^{2} + ϵ}}

应用：

针对图像的一张一张样本，每个通道单独归一化。
应用：

把通道分组，每组内部归一化。介于BN（全局）和IN（局部）之间。
应用：小Batch Size场景（如目标检测）

把任意实数向量映射成概率分布，核心用于多分类输出和注意力机制权重归一化，在神经网络训练中极其重要。

\begin{array}{r} y_{i} = s o f t m a x (a_{1}, \dots, a_{K})_{i} = \frac{e^{a_{i}}}{\sum_{j = 1}^{K} e^{a_{j}}} \end{array}

\begin{array}{r} y_{i} = s o f t m a x (w_{i}^{T} x + w_{i_{0}}) = \frac{\exp [w_{i}^{T} x + w_{i_{0}}]}{\sum_{j = 1}^{K} \exp [w_{j}^{T} x + w_{j_{0}}]} \end{array}

将一组输入值转换为概率分布。
最后一层通常使用 Softmax 函数，将输出转换为各个类别的概率。

非常重要！（尤其在神经网络训练时）
记 Softmax 输出为：

y_{i} = Softmax (z_{i})

则对于输入 $z_{k}$ ，Softmax 的偏导数：

\frac{\partial y_{i}}{\partial z_{k}} = {\begin{cases} y_{i} (1 - y_{i}), & if i = k \\ - y_{i} y_{k}, & if i \neq k \end{cases}

这可以写成一个 Jacobian 矩阵（雅可比矩阵）：

\frac{\partial y}{\partial z} = diag (y) - y y^{T}

解释：