统计学习算法——朴素贝叶斯

内容来自B站Up主:风中摇曳的小萝卜https://www.bilibili.com/video/BV1eT411V7jM,仅为个人学习所用。

独立性事件公式

有事件A与B。

  • P(A):A发生的概率。
  • P(AB):若A、B两个事件满足P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B)时,则A,B相互独立;
    若A,B不独立时,通过P(AB)=P(A∣B)P(B)P(AB)=P(A|B)P(B)P(AB)=P(AB)P(B)P(AB)=P(B∣A)P(A)P(AB)=P(B|A)P(A)P(AB)=P(BA)P(A)进行计算。
  • P(B∣A):是指A发生的条件下,B发生的概率。计算公式为P(B∣A)=P(AB)P(A) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)

问题导入

到了交作业的时间。大学生小明给班里30人发了一条求助作业的消息,30位同学纷纷给小明回复。小明发现这30条回复中,既有作业答案也有表白书。其中小明能分辨出有16份答案和13份情书,唯独班长的回复小明没有看懂。

为了确定该内容是答案还是情书,小明想,可不可以按照消息出现的关键字给班长的回复分类,看看是属于答案还是情书。

首先,计算小明收到的消息是作业还是情书的概率:
在这里插入图片描述
然后,小明选定了消息中4个关键词,并统计关键词在不同的类别中出现的次数。
在这里插入图片描述
小明分别计算每一个关键词在不同的类别中出现的概率:
在这里插入图片描述
假设班长给小明发送的消息中包含红豆和喜欢两个关键词,且这两个关键词的出现是相互独立的。
若该消息为作业,那么该概率的计算公式(朴素贝叶斯)为P(作业)P(红豆∣作业)P(喜欢∣作业)=1629215315=0.0147P(作业)P(红豆|作业)P(喜欢|作业)=\frac{16}{29}\frac{2}{15}\frac{3}{15}=0.0147P(作业)P(红豆作业)P(喜欢作业)=2916152153=0.0147P(情书)P(红豆∣情书)P(喜欢∣情书)=1329414814=0.0732P(情书)P(红豆|情书)P(喜欢|情书)=\frac{13}{29}\frac{4}{14}\frac{8}{14}=0.0732P(情书)P(红豆情书)P(喜欢情书)=2913144148=0.0732

由以上结果来看,该消息是情书的概率大,所以小明得出结论,班长给他发的是情书。

朴素贝叶斯法

定义

在该算法中,假设两个特征维度相互独立,也就是说关键词出现的顺序和上下文关系不影响计算结果。该计算方法简单粗暴,故被称为朴素贝叶斯法。朴素贝叶斯法根据样本特征x来预测样本类别y。
在这里插入图片描述

  • T:数据集。本例中数据集可以认为是发送的30条消息组成的集合。
  • (x1,y1):每一个样本。
  • x1,x2…:样本特征。本例中为四个关键词。
  • y1,y2…:样本类别。本例中为作业和情书。

公式

假设x的特征相互独立,有
在这里插入图片描述
∝∝表示正比;∏\prod表示连续相乘。

最后选择计算概率最高的作为分类类别。

拉普拉斯平滑

引入

假设有如下句子,计算该句子属于作业还是情书:
在这里插入图片描述
P(作业)P(喜欢∣作业)P(喜欢∣作业)P(喜欢∣作业)P(辛苦∣作业)=1629315315315615=0.00176P(作业)P(喜欢|作业)P(喜欢|作业)P(喜欢|作业)P(辛苦|作业)=\frac{16}{29}\frac{3}{15}\frac{3}{15}\frac{3}{15}\frac{6}{15}=0.00176P(作业)P(喜欢作业)P(喜欢作业)P(喜欢作业)P(辛苦作业)=2916153153153156=0.00176P(情书)P(喜欢∣情书)P(喜欢∣情书)P(喜欢∣情书)P(辛苦∣情书)=1329814814814014=0.00000P(情书)P(喜欢|情书)P(喜欢|情书)P(喜欢|情书)P(辛苦|情书)=\frac{13}{29}\frac{8}{14}\frac{8}{14}\frac{8}{14}\frac{0}{14}=0.00000P(情书)P(喜欢情书)P(喜欢情书)P(喜欢情书)P(辛苦情书)=2913148148148140=0.00000

可以看到,当某个关键词出现的概率为0的时候,计算的结果为0,算法认为该句子是一份作业。为了解决该问题,使用拉普拉斯平滑进行处理。

定义

拉普拉斯平滑,也称为加一平滑,是一种在统计计算概率时处理零概率问题的技术。
对于离散型特征,原始的条件概率公式为:
在这里插入图片描述
使用拉普拉斯平滑后,条件概率公式为:
在这里插入图片描述

修正错误结果

对于本例,α取1,有特征(作业和情书),且出现了四种取值(喜欢、红豆、明天、辛苦),|V|为4。则P(喜欢∣作业)=3+115+1∗4=419P(喜欢|作业)=\frac{3+1}{15 +1*4}=\frac{4}{19}P(喜欢作业)=15+143+1=194
在这里插入图片描述
其他值分别计算如下:
在这里插入图片描述
P(作业)P(喜欢∣作业)3P(辛苦∣作业)=1629419419419819=0.00217P(作业)P(喜欢|作业)^3P(辛苦|作业)=\frac{16}{29}\frac{4}{19}\frac{4}{19}\frac{4}{19}\frac{8}{19}=0.00217P(作业)P(喜欢作业)3P(辛苦作业)=2916194194194198=0.00217P(情书)P(喜欢∣情书)3P(辛苦∣情书)=1329918918918118=0.00311P(情书)P(喜欢|情书)^3P(辛苦|情书)=\frac{13}{29}\frac{9}{18}\frac{9}{18}\frac{9}{18}\frac{1}{18}=0.00311P(情书)P(喜欢情书)3P(辛苦情书)=2913189189189181=0.00311

故认为该句子是情书。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值