伯努利朴素贝叶斯(Bernoulli Naive Bayes)分类器是一种基于贝叶斯定理的概率分类器,常用于处理文本分类等离散数据。它假设特征之间是条件独立的,并且每个特征都遵循伯努利分布,即每个特征只有两个可能的取值(通常是0和1,表示特征是否出现)。
data:image/s3,"s3://crabby-images/4be6c/4be6c79e34a28143a8680b553bbebfd8e6187b76" alt=""
data:image/s3,"s3://crabby-images/a18dd/a18dd87135fe495dfc2d17f7bd3955edefe62243" alt=""
win,money,now,hello,friend,exclusive,offer,meeting,tomorrow,Spam 1,1,1,0,0,0,0,0,0,1 0,0,0,1,1,0,0,0,0,0 0,0,0,0,0,1,1,0,0,1 0,0,0,0,0,0,0,1,1,0
1. 伯努利分布
伯努利分布是一种离散概率分布,用于描述一个只有两个可能结果的随机试验。这两个结果通常被标记为 “成功”(记为1)和”失败”(记为0),并且成功的概率记为 p,失败的概率则为 1−p。
data:image/s3,"s3://crabby-images/6ee7b/6ee7b95056ec633e4eaebede31b1c59d6b6087a5" alt=""
- \(p\) 是成功的概率, \(0 \leq p \leq 1\)
- x 是随机变量 X 的取值(0 或 1)
2. 训练过程
对于朴素贝叶斯算法,训练过程就是在根据训练数据,统计每个特征值的在类别条件下的概率,以及类别的先验概率。
data:image/s3,"s3://crabby-images/4f9f0/4f9f04527a960b8520dc8cfc2783f0e80416ca8d" alt=""
data:image/s3,"s3://crabby-images/84fd3/84fd3a147783d335dc4c595007d17e2ecde94be2" alt=""
data:image/s3,"s3://crabby-images/169f8/169f84dda0ada0d44d7b0735feabda1df1c3a985" alt=""
在伯努利朴素贝叶斯中,假设每个特征值服从伯努利分布。对于特征 x 在类别 y 条件下的概率计算,可以表示为:
data:image/s3,"s3://crabby-images/74e34/74e3406c1ef6a7715164a649af9da509a3397a06" alt=""
公式中的 α 为拉普拉斯平滑系数,避免出现为 0 的情况,默认值为 1。训练得到的内容如下:x = 1 的条件概率:
data:image/s3,"s3://crabby-images/db38e/db38e132ebcff32760445ad4799a31ae2d3a0048" alt=""
data:image/s3,"s3://crabby-images/a1aa1/a1aa1ab843e3dcd7c24071ffe26e30fe0e98bff9" alt=""
data:image/s3,"s3://crabby-images/70826/70826fd5b1d2cb0f12968bec6f28f124fbc5230c" alt=""
3. 预测过程
待预测的邮件内容: “win hello” ,二值向量表示:
data:image/s3,"s3://crabby-images/e44ae/e44ae5eb50acc19a4185be1b24bfe7c8af11ecb0" alt=""
3.1 计算 spam 分数
计算联合条件概率:
\(P(spam)·P(win=1∣spam) ⋯ P(tomorrow=0∣spam)\)转换为联合对数概率计算(避免数值溢出):
\(log(P(spam)) + log(P(win=1∣spam)) + ⋯ +log(P(tomorrow=0∣spam))\)代入样本计算最后的结果:
\(log(0.5) + log(0.5) + log(0.5) + log(0.5) +log(0.25) + \\log(0.75) + log(0.5) +log(0.5) + log(0.75) + log(0.75) = -6.40822366\)3.2 计算 norm 分数
计算联合条件概率:
\(P(norm)·P(win=1∣norm) ⋯ P(tomorrow=0∣norm)\)转换为联合对数概率计算:
\(log(P(norm)) + log(P(win=1∣norm)) +⋯ +log(P(tomorrow=0∣norm))\)代入样本计算最后的结果:
\(log(0.5) + log(0.25) + log(0.75) + log(0.75) +log(0.5)+\\log(0.5)+log(0.75)+log(0.75)+log(0.5)+log(0.5) =-6.00275855 \)由于 \(-6.00275855 > -6.40822366\),所以该邮件为 norm。
4. API 使用
from sklearn.naive_bayes import BernoulliNB import numpy as np import pandas as pd import warnings warnings.filterwarnings('ignore') if __name__ == '__main__': data = pd.read_csv('data.csv') # 训练 # alpha 平滑系数 # binarize 二值化阈值 estimator = BernoulliNB(alpha=1, binarize=0.0) estimator.fit(data.iloc[:, :-1], data.iloc[:, -1]) print('对数先验概率:\n', estimator.class_log_prior_) print('对数条件概率(值=1):\n',estimator.feature_log_prob_) # 预测 new = np.array([[1, 0, 0, 1, 0, 0, 0, 0, 0]]) scores = estimator.predict_joint_log_proba(new) print('类别分数:', estimator.classes_, scores.squeeze())
程序执行结果:
对数先验概率: [-0.69314718 -0.69314718] 对数条件概率(值=1): [[-1.38629436 -1.38629436 -1.38629436 -0.69314718 -0.69314718 -1.38629436 -1.38629436 -0.69314718 -0.69314718] [-0.69314718 -0.69314718 -0.69314718 -1.38629436 -1.38629436 -0.69314718 -0.69314718 -1.38629436 -1.38629436]] 类别分数: [0 1] [-6.00275855 -6.40822366]