贝叶斯垃圾邮件分类

原创已于 2023-02-19 17:14:24 修改 · 320 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#分类 #算法

收录于

于 2022-11-24 11:29:34 首次发布

这篇博客介绍了如何处理垃圾邮件检测问题。首先，读取邮件数据，将内容和标签分别存储。接着，对邮件内容进行预处理，包括去除标点、分词和计算词频。构建词汇表，并计算垃圾邮件与正常邮件的词频。然后，计算对数类先验概率。最后，代码进入测试阶段，应用预处理和模型进行邮件分类。

1、读取数据

在这个代码段中，我们读入了所有邮件内容和标签，其中邮件内容存储在data中，标签存储在target当中，“1”表示为垃圾邮件，“0”表示为正常邮件。

2、数据预处理

对每个句子清除标点符号，分词，计算单词出现的次数；词汇表（即正常邮件和垃圾邮件中出现的所有单词，方便进行拉普拉斯平滑）；垃圾邮件和非垃圾邮件的词频，即给定词在垃圾邮件和非垃圾邮件中出现的次数。

3、数据处理

计算（对数）类先验，即计算P（垃圾邮件）和P（正常邮件）

4、测试阶段

代码：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ve2dle

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

机器学习--使用朴素贝叶斯进行垃圾邮件分类

jimei2011的博客

11-28

6479

朴素贝叶斯

参与评论您还未登录，请先登录后发表或查看评论

机器学习——朴素贝叶斯算法（垃圾邮件分类）

qq_53866837的博客

12-12

4500

垃圾邮件分类

贝叶斯算法：垃圾邮件过滤

daiswy的博客

09-14

4102

准备 100封邮件，50封垃圾邮件和50封正常邮件参考 : 贝叶斯算法原理程序过程解释 垃圾邮件分类的数学基础是贝叶斯推断(bayesian inference)。整个程序过程主要有以下几个部分构成： step 1 : 提取邮件并处理 1、使用 TDirectory.GetFiles(xPath) 获得 xPath 指示的文件夹下的所有文件的路径。 2、用 TStringList 根据路径读取文件内容。 3、使用 Split 方法将TStringList读取的内容以空格和“#13”分割...

利用朴素贝叶斯模型识别垃圾邮件

热门推荐

Gane_Cheng的博客

11-19

2万+

在学习，工作，生活中，我们经常会遇到各种分类问题。让你猜测一个身高2.16的人的职业，你一般会猜测他是篮球运动员。收到一条含有“中奖”词语的短信，会怀疑是一条垃圾短信。新闻编辑，收到一封含有“马云”词语的稿子，会倾向于将这个新闻放在科技板块，而不是财经，娱乐，体育板块。去找一家餐馆吃饭，我们倾向于找人多的一家。贝叶斯将生活中的概率问题，用数学方式表示了出来。下面，让我们看看朴素贝叶斯模型如何识别垃圾...

机器学习入门-贝叶斯垃圾邮件过滤(原理)

weixin_34406086的博客

01-18

620

贝叶斯里面的参数原理最大似然：即最符合观测数据的最有优势，即p(D|h)最大奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率最大似然：当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的奥卡姆剃刀：如果平面上有N个点，我们使用n-1阶的函数可以拟合出任何一个点，但是越高阶的曲线越不常见，因此p(N-1) <&...

基于朴素贝叶斯模型进行垃圾邮件的分类

weixin_44911248的博客

06-04

1万+

基于朴素贝叶斯模型进行垃圾邮件的分类。一、模型分析 贝叶斯方法是一个有着坚实的理论基础的一种方法，而且它在处理很多问题的时候直接而且高效。 贝叶斯公式: 条件独立性：如果事件x,y对于给定的事件z是相互独立的，也就是说，当z发生时，x发生与否与y发生与否时无关的。条件独立性公式：加上条件独立假设的贝叶斯方法就是朴素贝叶斯模型，根据本工程需要解决的问题，应用朴素贝叶斯模型解决垃圾邮件的分类问题。首先，要判断一个邮件是否为垃圾邮件的概率，只需要在已知该邮件的词向量的条件下，求出该邮件是否为垃圾邮件的概率

Python实现基于朴素贝叶斯的垃圾邮件分类

Kobe Bryant的专栏

04-20

2万+

听说朴素贝叶斯在垃圾邮件分类的应用中效果很好，寻思朴素贝叶斯容易实现，就用python写了一个朴素贝叶斯模型下的垃圾邮件分类。在400封邮件（正常邮件与垃圾邮件各一半）的测试集中测试结果为分类准确率95.15%，在仅仅统计词频计算概率的情况下，分类结果还是相当不错的。实现代码及数据集下载1、准备工作 python3.4开发环境；结巴分词工具：https://github.com/fxsjy/j

朴素贝叶斯（垃圾邮件分类）

weixin_54298275的博客

12-01

2967

贝叶斯垃圾分类

python：基于朴素贝叶斯算法的垃圾邮件过滤分类

spiritqi的博客

11-24

6234

朴素贝叶斯法（Naive Bayes model）是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

朴素贝叶斯——垃圾邮件分类

qq_52380049的博客

12-07

1625

垃圾邮件分类

使用朴素贝叶斯过滤垃圾邮件

RandyOliver's House

05-27

1648

朴素贝叶斯的最著名的应用：过滤电子邮件垃圾。

贝叶斯推断及其互联网应用（二）

weixin_30594001的博客

09-21

681

上一次，我介绍了贝叶斯推断的原理，今天讲如何将它用于垃圾邮件过滤。 ======================================== （接上文）七、什么是贝叶斯过滤器？ 垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语...

朴素贝叶斯----过滤垃圾邮件

m0_37992521的博客

09-29

695

一、思路框架 1.收集数据 2.准备数据 3.分析数据 4.训练算法 5.测试算法 6.使用算法二、具体实施 1.准备数据阶段：因为《机器学习实战》这本书提供的有源数据，因此省去了数据收集和准备的阶段，直接分析数据。这里分享一下《机器学习实战》里面的源数据链接： https://pan.baidu.com/s/1B7PCunfHF8J4gmbu22ljPQ 提取码：3vpk ...

机器学习-朴素贝叶斯过滤垃圾邮件

weixin_55747326的博客

11-28

6428

什么是朴素贝叶斯算法：用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。用这个算法处理垃圾邮件就可以理解为：用贝叶斯定理来预测一封由若干个单词组成的不知道是否为垃圾邮件的邮件，它是垃圾邮件或是正常邮件的可能性，如果算法预测出垃圾邮件的可能性更高，那这封邮件就是垃圾邮件，反之为正常邮件。

机器学习--朴素贝叶斯实现垃圾邮件分类

Srrrrrrr_的博客

11-20

2062

1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。

机器学习：垃圾邮件分类

qq_60891563的博客

11-12

3727

贝叶斯定理是概率论中的一条重要定理，用于计算在已知某一事件发生的情况下，另一事件发生的条件概率。按我的理解为是条件概率、朴素贝叶斯公式在垃圾邮件的分类上，实现是比较简单易懂的，也存在着一些优势高效性能：朴素贝叶斯算法通常在处理文本数据时具有高效的训练和预测速度，这对于大规模垃圾邮件分类任务非常重要。适应文本特征：朴素贝叶斯算法在处理文本特征时表现良好，能够有效地捕捉单词出现的概率信息，适用于垃圾邮件中常见的文本特征。

机器学习：朴素贝叶斯算法与垃圾邮件过滤

weixin_51998499的博客

11-28

4975

贝叶斯算法是由英国数学家托马斯·贝叶斯提出的，这个算法的提出是为了解决“逆向概率”的问题。正向概率：假设一个箱子里有5个黄色球和5个白色球，随机从箱子里拿出一个球，请问取出的是黄球的概率是多少？很容易计算P（黄球）= N（黄球）/N（黄球）+ N（白球） = 5/5+5 = 1/2。逆向概率：起初我们并不知道箱子里有多少个球，我们依次从箱子里取出10个球，发现这个10个球中有7个白球，3个黄球，那么我们会根据我们观察到的结果去推测箱子里白球与黄球的分布比例大概是7:3，但是我们无法推测出箱子里的球的个数。

贝叶斯公式的理解及应用（垃圾邮件过滤）

vivian_ll的博客

03-10

1万+

全概公式 贝叶斯公式 贝叶斯推断过滤垃圾邮件 条件概率