Hadoop自带WordCount进行词频统计（mapreduce）

最新推荐文章于 2026-05-04 07:55:57 发布

原创最新推荐文章于 2026-05-04 07:55:57 发布 · 8.7k 阅读

70 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#hadoop #mapreduce

wordcount 同时被 2 个专栏收录

1 篇文章

订阅专栏

词频

1 篇文章

订阅专栏

这篇博客介绍了如何利用Hadoop自带的MapReduce程序WordCount进行词频统计。首先，确保Hadoop已安装并启动，然后将预处理过的分词txt文件上传到Hadoop文件系统。接着，通过Hadoop的jar包运行wordcount示例，输入待统计的txt文件，输出结果存储在/out/hlmcount。最后，检查输出结果完成词频统计。

Hadoop自带WordCount进行词频统计

准备：

安装好的Hadoop
需要统计词频txt文件（用jieba分过词的
链接: pycharm 分词 jieba 结巴分词输出txt.

step1

启动Hadoop

cd /usr/local/hadoop
./sbin/start-all.sh

在这里插入图片描述
用jps命令查看是否开启成功

准备好需要统计词频的txt文件（也可以用filezilla传入Ubuntu）
链接: 如何用filezilla连接Ubuntu.

找到Hadoop文件所在位置

在这里插入图片描述

把需要计算词频的文件放在Hadoop文件下（记得这个文件要用jieba分好词后的文件）

step2

使用Hadoop自带的jar包用wordcount计算词频

创建一个文件夹存放需要计算词频的txt文件

bin/hdfs dfs -mkdir -p  /input

在这里插入图片描述

把需要计算词频的文件放到刚刚所建的文件夹中（txt文件一定要放在Hadoop文件夹下嗷）

bin/hdfs dfs -put hlm.txt  /input

在这里插入图片描述

查看 /input文件夹下面的文件

bin/hdfs dfs -ls  /input

在这里插入图片描述

使用jar包中的wordcount计算词频
jar包的位置：
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

计算词频代码

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount  /input/hlm.txt  /out/hlmcount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
注意每个人的Hadoop版本不同黄线上的文件名也不同

敲下回车之后

查看输出的结果

bin/hdfs dfs -cat /out/hlmcount/part-r-00000

在这里插入图片描述

完美结束~