大数据入门:WordCount程序解析
为一个顽固的家伙写的,都要考试了还不让我给详细讲一下,我就想白眼死你!!!
一、输入
输入源可以是一个文件,也可以是包含多个文件的文件夹。
具体的只需要在程序的文件输入路径中指定就可以。这里以一个txt文件为例:

二、程序解析
(1)我们需要了解MapReduce(MR)的过程

(2) 程序代码
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class WordCount {
//Map阶段 参数是map的输入key、valu

本文主要解析大数据入门的经典示例WordCount程序,包括输入、程序解析、输出及注意事项。讲解了MapReduce过程,强调Map和Reduce类的static关键字,以及输出文件夹名称的修改等关键点。

3441

被折叠的 条评论
为什么被折叠?



