拉普拉斯平滑

贝叶斯公式是概率论中的一项基本公式,用于计算条件概率。它是由英国数学家托马斯·贝叶斯(Thomas Bayes)在18世纪中期提出的,并在后来由皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)等人进一步发展和推广,下面即贝叶斯公式:

我们通过一个故事可以形象去理解贝叶斯公式,A 代表下雨或者晴天,B 代表多个影响下雨和晴天的因素。即:A = (下雨,晴天),B = (湿度,温度,气压,地形),现在我们拿到当天的一组数据:

(湿度=a1,温度=b1,气压=c1,地形=d1)

想要知道今天下雨的概率有多少?贝叶斯的思想就是根据历史数据来判断,历史数据格式大体如下:

(湿度=a1,温度=b1,气压=c2,地形=d2)    下雨
(湿度=a2,温度=b2,气压=c1,地形=d1)    晴天
(湿度=a1,温度=b1,气压=c3,地形=d2)    晴天
(湿度=a2,温度=b3,气压=c4,地形=d2)    下雨
(湿度=a2,温度=b2,气压=c3,地形=d1)    晴天
.... 
共计 5 条数据,实际上会存在更多的数据

贝叶斯首先根据历史数据大体判断下今天下雨的概率,即:P(A)=P(下雨)=2/5,这个就叫做先验概率(根据历史经验得到的概率),但是这个概率准么?一般是不准的,这个仅仅是大体的推断。

我们仍然需要知道历史数据中具体的湿度、温度、气压、地形值等因素对下雨和晴天的影响。例如:

  1. 下雨的时候,湿度=a1 的概率是 1/2;湿度=a2 的概率是 1/2;
  2. 下雨的时候,温度=b1 的概率是 1/2;湿度是 b3 的概率是 1/2;
  3. 下雨的时候,气压=c2 的概率是 1/2;气压=c4 的概率是 1/2;
  4. 下雨的时候,地形=d2 的概率是 2/2;

2. 拉普拉斯平滑系数

接下来,引入拉普拉斯平滑系数,公式如下:

  • P(word|class) 是给定类别下特征词语出现的条件概率
  • count(word, class) 是在训练数据中,在给定类别下特征词语出现的次数
  • count(class) 是在训练数据中,给定类别出现的次数
  • V 是词汇表的大小(即不同词语的数量)
未经允许不得转载:一亩三分地 » 拉普拉斯平滑
评论 (0)

2 + 4 =