内容来自B站Up主:风中摇曳的小萝卜https://www.bilibili.com/video/BV1eT411V7jM,仅为个人学习所用。
独立性事件公式
有事件A与B。
- P(A):A发生的概率。
- P(AB):若A、B两个事件满足P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B)时,则A,B相互独立;
若A,B不独立时,通过P(AB)=P(A∣B)P(B)P(AB)=P(A|B)P(B)P(AB)=P(A∣B)P(B)或P(AB)=P(B∣A)P(A)P(AB)=P(B|A)P(A)P(AB)=P(B∣A)P(A)进行计算。 - P(B∣A):是指A发生的条件下,B发生的概率。计算公式为P(B∣A)=P(AB)P(A) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
问题导入
到了交作业的时间。大学生小明给班里30人发了一条求助作业的消息,30位同学纷纷给小明回复。小明发现这30条回复中,既有作业答案也有表白书。其中小明能分辨出有16份答案和13份情书,唯独班长的回复小明没有看懂。
为了确定该内容是答案还是情书,小明想,可不可以按照消息出现的关键字给班长的回复分类,看看是属于答案还是情书。
首先,计算小明收到的消息是作业还是情书的概率:

然后,小明选定了消息中4个关键词,并统计关键词在不同的类别中出现的次数。

小明分别计算每一个关键词在不同的类别中出现的概率:

假设班长给小明发送的消息中包含红豆和喜欢两个关键词,且这两个关键词的出现是相互独立的。
若该消息为作业,那么该概率的计算公式(朴素贝叶斯)为P(作业)P(红豆∣作业)P(喜欢∣作业)=1629215315=0.0147P(作业)P(红豆|作业)P(喜欢|作业)=\frac{16}{29}\frac{2}{15}\frac{3}{15}=0.0147P(作业)P(红豆∣作业)P(喜欢∣作业)=2916152153=0.0147P(情书)P(红豆∣情书)P(喜欢∣情书)=1329414814=0.0732P(情书)P(红豆|情书)P(喜欢|情书)=\frac{13}{29}\frac{4}{14}\frac{8}{14}=0.0732P(情书)P(红豆∣情书)P(喜欢∣情书)=2913144148=0.0732
由以上结果来看,该消息是情书的概率大,所以小明得出结论,班长给他发的是情书。
朴素贝叶斯法
定义
在该算法中,假设两个特征维度相互独立,也就是说关键词出现的顺序和上下文关系不影响计算结果。该计算方法简单粗暴,故被称为朴素贝叶斯法。朴素贝叶斯法根据样本特征x来预测样本类别y。

- T:数据集。本例中数据集可以认为是发送的30条消息组成的集合。
- (x1,y1):每一个样本。
- x1,x2…:样本特征。本例中为四个关键词。
- y1,y2…:样本类别。本例中为作业和情书。
公式
假设x的特征相互独立,有

∝∝∝表示正比;∏\prod∏表示连续相乘。
最后选择计算概率最高的作为分类类别。
拉普拉斯平滑
引入
假设有如下句子,计算该句子属于作业还是情书:

P(作业)P(喜欢∣作业)P(喜欢∣作业)P(喜欢∣作业)P(辛苦∣作业)=1629315315315615=0.00176P(作业)P(喜欢|作业)P(喜欢|作业)P(喜欢|作业)P(辛苦|作业)=\frac{16}{29}\frac{3}{15}\frac{3}{15}\frac{3}{15}\frac{6}{15}=0.00176P(作业)P(喜欢∣作业)P(喜欢∣作业)P(喜欢∣作业)P(辛苦∣作业)=2916153153153156=0.00176P(情书)P(喜欢∣情书)P(喜欢∣情书)P(喜欢∣情书)P(辛苦∣情书)=1329814814814014=0.00000P(情书)P(喜欢|情书)P(喜欢|情书)P(喜欢|情书)P(辛苦|情书)=\frac{13}{29}\frac{8}{14}\frac{8}{14}\frac{8}{14}\frac{0}{14}=0.00000P(情书)P(喜欢∣情书)P(喜欢∣情书)P(喜欢∣情书)P(辛苦∣情书)=2913148148148140=0.00000
可以看到,当某个关键词出现的概率为0的时候,计算的结果为0,算法认为该句子是一份作业。为了解决该问题,使用拉普拉斯平滑进行处理。
定义
拉普拉斯平滑,也称为加一平滑,是一种在统计计算概率时处理零概率问题的技术。
对于离散型特征,原始的条件概率公式为:

使用拉普拉斯平滑后,条件概率公式为:

修正错误结果
对于本例,α取1,有特征(作业和情书),且出现了四种取值(喜欢、红豆、明天、辛苦),|V|为4。则P(喜欢∣作业)=3+115+1∗4=419P(喜欢|作业)=\frac{3+1}{15 +1*4}=\frac{4}{19}P(喜欢∣作业)=15+1∗43+1=194

其他值分别计算如下:

P(作业)P(喜欢∣作业)3P(辛苦∣作业)=1629419419419819=0.00217P(作业)P(喜欢|作业)^3P(辛苦|作业)=\frac{16}{29}\frac{4}{19}\frac{4}{19}\frac{4}{19}\frac{8}{19}=0.00217P(作业)P(喜欢∣作业)3P(辛苦∣作业)=2916194194194198=0.00217P(情书)P(喜欢∣情书)3P(辛苦∣情书)=1329918918918118=0.00311P(情书)P(喜欢|情书)^3P(辛苦|情书)=\frac{13}{29}\frac{9}{18}\frac{9}{18}\frac{9}{18}\frac{1}{18}=0.00311P(情书)P(喜欢∣情书)3P(辛苦∣情书)=2913189189189181=0.00311
故认为该句子是情书。

2517

被折叠的 条评论
为什么被折叠?



