大数据入门：WordCount程序解析

最新推荐文章于 2025-09-18 19:39:23 发布

原创

最新推荐文章于 2025-09-18 19:39:23 发布 · 2.7k 阅读

标签

#wordcount #hadoop #大数据

收录于

本文主要解析大数据入门的经典示例WordCount程序，包括输入、程序解析、输出及注意事项。讲解了MapReduce过程，强调Map和Reduce类的static关键字，以及输出文件夹名称的修改等关键点。

大数据入门：WordCount程序解析

文章目录

大数据入门：WordCount程序解析

为一个顽固的家伙写的，都要考试了还不让我给详细讲一下，我就想白眼死你！！！

一、输入

输入源可以是一个文件，也可以是包含多个文件的文件夹。
具体的只需要在程序的文件输入路径中指定就可以。这里以一个txt文件为例：
在这里插入图片描述

二、程序解析

（1）我们需要了解MapReduce（MR）的过程
在这里插入图片描述

（2）程序代码

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCount {
    //Map阶段    参数是map的输入key、valu