距离度量

Distance Metric

距离度量（Distance Metric）或相似性度量（Similarity Measure）是机器学习和数据挖掘中用于量化两个样本、特征或数据点之间相似性或差异性的函数。它是许多算法（如K近邻、聚类、支持向量机）的核心组成部分，直接影响着模型的性能和结果。

在机器学习中，我们经常需要判断“这个样本和那个样本有多像？”或者“这两个特征有多相关？”。距离度量提供了一个数学工具来回答这些问题。一个好的距离度量能够准确地反映数据点之间的内在关系。

一个函数 $d (x, y)$ 要被称为“距离度量”，通常需要满足以下四个基本性质：

非负性 (Non-negativity): $d (x, y) \geq 0$ 。距离总是非负的。
同一性 (Identity of indiscernibles): $d (x, y) = 0$ 当且仅当 $x = y$ 。只有当两个点是同一个点时，它们之间的距离才为零。
对称性 (Symmetry): $d (x, y) = d (y, x)$ 。从 $x$ 到 $y$ 的距离与从 $y$ 到 $x$ 的距离相等。
三角不等式 (Triangle Inequality): $d (x, z) \leq d (x, y) + d (y, z)$ 。从 $x$ 到 $z$ 的直接距离不会超过从 $x$ 到 $y$ 再到 $z$ 的距离之和。

这是最通用的一类距离度量，通过参数 $p$ 的选择，可以退化为多种常用距离。

d_{p} (x, y) = {(\sum_{i = 1}^{n} | x_{i} - y_{i} |^{p})}^{1 / p}

范数
欧氏距离：在二维和三维空间中的欧氏距离就是两点之间的实际距离

\begin{array}{r} d (x, y) = \sqrt{\sum_{i} (x_{i} - y_{i})^{2}} \end{array}

曼哈顿距离/城市街区距离：

\begin{array}{r} d (x, y) = \sum_{i} | x_{i} - y_{i} | \end{array}

切比雪夫距离：各坐标数值差绝对值的最大值

\begin{array}{r} d (x, y) = m a x | x_{i} - y_{i} | \end{array}

闵可夫斯基距离： $p = 1$ 时为曼哈顿距离, $p = 2$ 时为欧氏距离， $p = \infty$ 时为切比雪夫距离

\begin{array}{r} d (x, y) = {(\sum_{i} {| x_{i} - y_{i} |}^{p})}^{1 / p} \end{array}

原理: 衡量两个向量在空间中的方向相似性，而不考虑它们的长度。值范围 $[- 1, 1]$ ，越接近1表示越相似，越接近-1表示越不相似（方向相反），0表示正交（不相关）。
公式: 对于两个非零向量 $A$ 和 $B$ ： $similarity = \cos (θ) = \frac{A \cdot B}{∥ A ∥ ∥ B ∥} = \frac{\sum_{i = 1}^{n} A_{i} B_{i}}{\sqrt{\sum_{i = 1}^{n} A_{i}^{2}} \sqrt{\sum_{i = 1}^{n} B_{i}^{2}}}$
适用场景: 文本分析（如文档相似度）、推荐系统，当向量的长度不重要，而方向更重要时。

原理: 用于衡量两个等长字符串（通常是二进制字符串）之间对应位置上不同字符的数量。它表示将一个字符串转换为另一个字符串所需的最小替换次数。

公式: 对于两个二进制字符串 $A$ 和 $B$ ：

d_{H} (A, B) = \sum_{i = 1}^{n} (A_{i} \neq B_{i})

适用场景: 编码理论、信息论、DNA序列分析、类别变量的比较。

选择合适的距离度量是机器学习任务中的一个重要决策，需要考虑：