1、读取数据
在这个代码段中,我们读入了所有邮件内容和标签,其中邮件内容存储在data中,标签存储在target当中,“1”表示为垃圾邮件,“0”表示为正常邮件。
2、数据预处理
对每个句子清除标点符号,分词,计算单词出现的次数;词汇表(即正常邮件和垃圾邮件中出现的所有单词,方便进行拉普拉斯平滑);垃圾邮件和非垃圾邮件的词频,即给定词在垃圾邮件和非垃圾邮件中出现的次数。
3、数据处理
计算(对数)类先验,即计算P(垃圾邮件)和P(正常邮件)
4、测试阶段

代码:

这篇博客介绍了如何处理垃圾邮件检测问题。首先,读取邮件数据,将内容和标签分别存储。接着,对邮件内容进行预处理,包括去除标点、分词和计算词频。构建词汇表,并计算垃圾邮件与正常邮件的词频。然后,计算对数类先验概率。最后,代码进入测试阶段,应用预处理和模型进行邮件分类。
1、读取数据
在这个代码段中,我们读入了所有邮件内容和标签,其中邮件内容存储在data中,标签存储在target当中,“1”表示为垃圾邮件,“0”表示为正常邮件。
2、数据预处理
对每个句子清除标点符号,分词,计算单词出现的次数;词汇表(即正常邮件和垃圾邮件中出现的所有单词,方便进行拉普拉斯平滑);垃圾邮件和非垃圾邮件的词频,即给定词在垃圾邮件和非垃圾邮件中出现的次数。
3、数据处理
计算(对数)类先验,即计算P(垃圾邮件)和P(正常邮件)
4、测试阶段

代码:

6479
4500
1万+
2967
1625
4975

被折叠的 条评论
为什么被折叠?
