伯努利朴素贝叶斯（Bernoulli Naive Bayes）分类器是一种基于贝叶斯定理的概率分类器，常用于处理文本分类等离散数据。它假设特征之间是条件独立的，并且每个特征都遵循伯努利分布，即每个特征只有两个可能的取值（通常是0和1，表示特征是否出现）。

win,money,now,hello,friend,exclusive,offer,meeting,tomorrow,Spam
1,1,1,0,0,0,0,0,0,1
0,0,0,1,1,0,0,0,0,0
0,0,0,0,0,1,1,0,0,1
0,0,0,0,0,0,0,1,1,0

1. 伯努利分布

伯努利分布是一种离散概率分布，用于描述一个只有两个可能结果的随机试验。这两个结果通常被标记为 “成功”（记为1）和”失败”（记为0），并且成功的概率记为 p，失败的概率则为 1−p。

\(p\) 是成功的概率， \(0 \leq p \leq 1\)
x 是随机变量 X 的取值（0 或 1）

2. 训练过程

对于朴素贝叶斯算法，训练过程就是在根据训练数据，统计每个特征值的在类别条件下的概率，以及类别的先验概率。

在伯努利朴素贝叶斯中，假设每个特征值服从伯努利分布。对于特征 x 在类别 y 条件下的概率计算，可以表示为：

公式中的 α 为拉普拉斯平滑系数，避免出现为 0 的情况，默认值为 1。训练得到的内容如下：x = 1 的条件概率：

3. 预测过程

待预测的邮件内容： “win hello” ，二值向量表示：

3.1 计算 spam 分数

计算联合条件概率：

\(P(spam)·P(win=1∣spam) ⋯ P(tomorrow=0∣spam)\)

转换为联合对数概率计算（避免数值溢出）：

\(log(P(spam)) + log(P(win=1∣spam)) + ⋯ +log(P(tomorrow=0∣spam))\)

代入样本计算最后的结果：

\(log(0.5) + log(0.5) + log(0.5) + log(0.5) +log(0.25) + \\log(0.75) + log(0.5) +log(0.5) + log(0.75) + log(0.75) = -6.40822366\)

3.2 计算 norm 分数

计算联合条件概率：

\(P(norm)·P(win=1∣norm) ⋯ P(tomorrow=0∣norm)\)

转换为联合对数概率计算：

\(log(P(norm)) + log(P(win=1∣norm)) +⋯ +log(P(tomorrow=0∣norm))\)

代入样本计算最后的结果：

\(log(0.5) + log(0.25) + log(0.75) + log(0.75) +log(0.5)+\\log(0.5)+log(0.75)+log(0.75)+log(0.5)+log(0.5) =-6.00275855 \)

由于 \(-6.00275855 > -6.40822366\)，所以该邮件为 norm。

4. API 使用

from sklearn.naive_bayes import BernoulliNB
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')


if __name__ == '__main__':

    data = pd.read_csv('data.csv')

    # 训练
    # alpha 平滑系数
    # binarize 二值化阈值
    estimator = BernoulliNB(alpha=1,  binarize=0.0)
    estimator.fit(data.iloc[:, :-1], data.iloc[:, -1])


    print('对数先验概率:\n', estimator.class_log_prior_)
    print('对数条件概率(值=1):\n',estimator.feature_log_prob_)

    # 预测
    new = np.array([[1, 0, 0, 1, 0, 0, 0, 0, 0]])
    scores = estimator.predict_joint_log_proba(new)

    print('类别分数:', estimator.classes_, scores.squeeze())

程序执行结果：

对数先验概率:
 [-0.69314718 -0.69314718]

对数条件概率(值=1):
 [[-1.38629436 -1.38629436 -1.38629436 -0.69314718 -0.69314718 -1.38629436
  -1.38629436 -0.69314718 -0.69314718]
 [-0.69314718 -0.69314718 -0.69314718 -1.38629436 -1.38629436 -0.69314718
  -0.69314718 -1.38629436 -1.38629436]]

类别分数: [0 1] [-6.00275855 -6.40822366]

伯努利朴素贝叶斯（Bernoulli NB）