朴素贝叶斯分类

Naive Bayes Classifier

典型的生成学习方法：训练数据学习联合概率分布，求得后验概率分布。（概率估计方法可以是极大似然估计或贝叶斯估计）

是一类基于贝叶斯定理的简单高效的分类算法。其核心建立在一个“朴素”的假设之上：给定类别时，所有特征之间相互独立。尽管这个假设在现实中几乎不成立，但它在许多应用中（尤其是文本分类) 取得了巨大成功。

以贝叶斯公式为基础的分类方法

先验概率 $P (Y)$ ：根据以往经验和分析得到的概率。在没有训练数据前假设 $Y$ 拥有的初始概率
后验概率 $P (Y ∣ X)$ ：根据已经发生的事件来分析得到的概率。假设 $X$ 成立的情况下观察到 $Y$ 数据的概率，反映训练数据下 $Y$ 成立的置信度
联合概率 $P (X, Y) P (X Y) P (X \cap Y)$ ：两个条件同时成立的概率

\begin{aligned} P (B_{i} ∣ A) & = \frac{P (A B_{i})}{P (A)} = \frac{P (B_{i}) P (A ∣ B_{i})}{\sum_{i = 1}^{n} P (A ∣ B_{i}) P (B_{i})} \end{aligned}

对于一个给定的样本 $X = (x_{1}, x_{2}, \dots, x_{n})$ ，朴素贝叶斯分类的目标是找到使其后验概率 $P (C_{k} | X)$ 最大的那个类别 $C_{k}$ 。

P (C_{k} | X) = \frac{P (X | C_{k}) \cdot P (C_{k})}{P (X)}

由于对于所有类别 $C_{k}$ ， $P (X)$ 的值都是相同的，因此在比较不同类别的后验概率时，可以忽略分母。我们的目标简化为最大化分子：

\hat{C} = \arg max_{C_{k}} P (X | C_{k}) \cdot P (C_{k})

基本假设是条件独立性，朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测

拉普拉斯平滑的方法：我们为每个计数加1，因此它永远不会为零。为了平衡这一点，我们将可能单词的数量添加到除数中，因此计算结果永远不会大于1

Note

这里就是“朴素”一词的来源。我们假设所有特征 $x_{i}$ 在给定类别 $C_{k}$ 的情况下是条件独立的。这意味着：

P (X | C_{k}) = P (x_{1}, x_{2}, \dots, x_{n} | C_{k}) = \prod_{i = 1}^{n} P (x_{i} | C_{k})

这个假设极大地简化了似然的计算。将此代入分类准则，我们得到最终的朴素贝叶斯分类器公式：

\hat{C} = \arg max_{C_{k}} P (C_{k}) \prod_{i = 1}^{n} P (x_{i} | C_{k})

对数技巧

在实际计算中，多个小于 1 的概率相乘容易导致浮点数下溢。因此，通常会对上式取对数，将乘法变为加法，从而提高计算稳定性：

\hat{C} = \arg max_{C_{k}} (\log P (C_{k}) + \sum_{i = 1}^{n} \log P (x_{i} | C_{k}))

根据特征数据的不同分布，朴素贝叶斯可以分为三种主要模型：

高斯朴素贝叶斯 (Gaussian Naive Bayes)
- 适用场景: 特征是连续值（如身高、体重）。
- 假设: 假设每个特征在每个类别下都服从高斯分布。
- 似然计算: $P (x_{i} | C_{k}) = \frac{1}{\sqrt{2 π σ_{k, i}^{2}}} \exp (- \frac{(x_{i} - μ_{k, i})^{2}}{2 σ_{k, i}^{2}})$ 其中 $μ_{k, i}$ 和 $σ_{k, i}^{2}$ 是类别 $C_{k}$ 中特征 $x_{i}$ 的均值和方差。
多项式朴素贝叶斯 (Multinomial Naive Bayes)
- 适用场景: 特征是离散的计数值（如文本分类中单词的出现次数）。
- 假设: 特征向量服从多项式分布。
- 似然计算: $P (x_{i} | C_{k}) = \frac{N_{k, i} + α}{N_{k} + α | V |}$ 其中 $N_{k, i}$ 是类别 $C_{k}$ 中特征 $x_{i}$ 的总数， $N_{k}$ 是类别 $C_{k}$ 中所有特征的总数， $| V |$ 是词汇表大小， $α$ 是平滑参数。
伯努利朴素贝叶斯 (Bernoulli Naive Bayes)
- 适用场景: 特征是二元的（0 或 1），表示某项是否存在（如文本分类中单词是否出现）。
- 假设: 每个特征服从独立的伯努利分布。
- 似然计算: 主要计算在类别 $C_{k}$ 中，特征 $x_{i}$ 出现（ $P (x_{i} = 1 | C_{k})$ ）和不出现（ $P (x_{i} = 0 | C_{k})$ ）的概率。

为了防止因某个特征在训练集中未出现于某个类别中，导致其条件概率 $P (x_{i} | C_{k})$ 为 0，从而使整个后验概率为 0 的问题，我们引入平滑技术。

Laplace Smoothing 是一种常用的平滑方法，它为所有计数值加一个小的平滑参数 $α$ （ $α = 1$ 时称为拉普拉斯平滑， $α < 1$ 时称为 Lidstone 平滑）。

P (x_{i} | C_{k}) = \frac{count (x_{i}, C_{k}) + α}{count (C_{k}) + α \cdot | V |}