hadoop下mahout bayes（贝叶斯）算法研究（1）

最新推荐文章于 2022-03-11 11:10:58 发布

转载最新推荐文章于 2022-03-11 11:10:58 发布 · 753 阅读

·

0

·

本文详细介绍了如何使用Mahout的朴素贝叶斯分类器对20个新闻组数据进行分类，包括环境准备、数据预处理、算法流程、数据输入与输出准备、在Hadoop中的执行命令与过程，以及最终的输出结果分析。

1.算法简介

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率哪个最大，就认为此待分类项属于哪个类别。

这二十个新闻组数据集合是收集大约20,000新闻组文档，均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验，根据机器学习技术。例如文本分类，文本聚集。我们将使用Mahout的Bayes Classifier创造一个模型，它将一个新文档分类到这20个新闻组集合范例演示

2.环境要求

hadoop已经开启

mahout已经安装

3.数据的准备

下载20news-bydate.tar.gz数据包并解压缩

http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz

例如：我已经把数据包放在/root/bayes下了，所以以下的命令都是在这个目录下的

原以为这么20个文件是不可以一起输出的，但事实证明是可以的

4.算法流程

5.数据输入与输出准备过程

5.1生成input的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-train -o /root/bayesoutput/train -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8

5.2生成test的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-test -o /root/bayesoutput/test -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8

6.在Hadoop中执行命令与过程

上传文件到HDFS

hadoop fs -put /root/bayesoutput/train/ bayes

7.算法执行命令与过程

下面将在hadoop运行4个map reduce工作，为了Train这个分器并且将运行一段时间如果在只有一个节点的机器上

mahout trainclassifier -i /bayes/train/ -o newsmodel -type bayes -ng 3 -source hdfs（由于hadoop集群未开，这条命令暂时没用）

mahout trainclassifier -i /root/bayesoutput/train -o newsmodel -type bayes -ng 3 –source hdfs（本地测试）

由于案例数据较多，跑了将近30分钟，新的newmodel的大小有300多mb

可以通过http://localhost:50030/jobtracker.jsp来监控job的状态

在input目录运行Test分类器

mahout testclassifier -m newsmodel -d /root/bayesoutput/test/ -type bayes -ng 3 -source hdfs -method mapreduce

8.输出结果参考：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。