Hadoop自带WordCount进行词频统计
准备:
- 安装好的Hadoop
- 需要统计词频txt文件(用jieba分过词的
链接: pycharm 分词 jieba 结巴分词输出txt.
step1
启动Hadoop
cd /usr/local/hadoop
./sbin/start-all.sh

用jps命令查看是否开启成功

准备好需要统计词频的txt文件(也可以用filezilla传入Ubuntu)
链接: 如何用filezilla连接Ubuntu.
- 找到Hadoop文件所在位置




- 把需要计算词频的文件放在Hadoop文件下(记得这个文件要用jieba分好词后的文件)

step2
使用Hadoop自带的jar包用wordcount计算词频
- 创建一个文件夹存放需要计算词频的txt文件
bin/hdfs dfs -mkdir -p /input

- 把需要计算词频的文件放到刚刚所建的文件夹中(txt文件一定要放在Hadoop文件夹下嗷)
bin/hdfs dfs -put hlm.txt /input

- 查看 /input文件夹下面的文件
bin/hdfs dfs -ls /input

- 使用jar包中的wordcount计算词频
jar包的位置:
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

计算词频代码
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
注意每个人的Hadoop版本不同黄线上的文件名也不同
敲下回车之后
- 查看输出的结果
bin/hdfs dfs -cat /out/hlmcount/part-r-00000


完美结束~

这篇博客介绍了如何利用Hadoop自带的MapReduce程序WordCount进行词频统计。首先,确保Hadoop已安装并启动,然后将预处理过的分词txt文件上传到Hadoop文件系统。接着,通过Hadoop的jar包运行wordcount示例,输入待统计的txt文件,输出结果存储在/out/hlmcount。最后,检查输出结果完成词频统计。


&spm=1001.2101.3001.5002&articleId=110199482&d=1&t=3&u=927c8fe6febc409e95f08983a1e1f55e)
4095

被折叠的 条评论
为什么被折叠?



