1.首先,我们在win环境下用Eclipse写好程序,然后导出jar包,我这里是放到虚拟机的root目录下,叫wc.jar。

2.接下来我们把要处理的数据上传到hdfs系统当中。

我们待处理的数据为123.txt。我们用命令:[root@itcast01 ~]# hdfs dfs -put /root/123.txt /local/  这句命令的意思是把虚拟机root目录下甄123.txt文件直接传到hdfs文件系统。(当然我们在上传之前要启动hadoop  用命令start-all.sh 虽然命令已经过时,但还可以用,哈哈! )

用网页打开hdfs我们能看到


3.我们接下来就要开始运行了

进入hadoop目录[root@itcast01 hadoop-2.2.0]# hadoop jar /root/wc.jar cn.itcast.bigdata.mr.wcdemo.WordcountDriver /123.txt /wcoutput        

hadoop jar 是格式      /root/wc.jar 代表root目录下的wc.jar包,也就是我们事先 写好的程序。

cn.itcast.bigdata.mr.wcdemo.WordcountDriver是我们在Eclipse里面写的主类方法。

 /123.txt是hdfs我们第二步上传的文件       /wcoutput 是我们自己定义输出的文件名,也是直接放到hdfs下面了。



我们能看到,先运行map,当map运行100%之后,开始运行reduce。


现在我们刷新 hdfs管理界面,我们看到我们运行结果文件 wcoutput。我们可以在命令窗查看,但用界面查看比较简单,哈哈!


看到success,代表我们运行成功!结果存放在part-r-00000中。





Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐