使用hdfs api——java编程方式
示例项目 https://github.com/qiyueW/hadoop.file.git
1、编写MapReduce程序
继承public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
重写里面的map方法。
示例
| 命令 | 说明 | 示例 | 备注 |
|---|---|---|---|
| hadoop fs -mkdir | 创建目录 | hadoop fs -mkdir /user | 在HDFS中创建“/user”目录 |
| 创建目录 | hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2 | 同时创建多个目录 |
案例代码:
pom.xml
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<hadoop.version>3.1.2</hadoop.version>
<slf4j.version>1.7.7</slf4j.version>
<log4j.version>1.2.17</log4j.version>
</properties>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<type>jar</type>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!-- 日志文件管理包 -->
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>${log4j.version}</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>${slf4j.version}</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>${slf4j.version}</version>
</dependency>
</dependencies>
<build>
<finalName>hadoopFile3</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<version>2.4</version>
<configuration>
<archive>
<manifest>
<addClasspath>true</addClasspath>
<!-- <mainClass>weixinkeji.vip.hadoop.file.CFile</mainClass> -->
<!-- <mainClass>weixinkeji.vip.hadoop.file.IOFile</mainClass> -->
<!-- <mainClass>weixinkeji.vip.hadoop.file.MyCount</mainClass> -->
<mainClass>weixinkeji.vip.hadoop.file.mr.MyJob</mainClass>
</manifest>
</archive>
</configuration>
</plugin>
</plugins>
</build>
public class MyJob {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();// 配置封装处理对象
Job job = Job.getInstance(conf, "word count");// 实例一个任务对象
job.setJarByClass(MyJob.class); //通过class查找job的jar文件
// job.setCombinerClass(MyReduce.class);// 可以省略 合并
//注册
job.setMapperClass(MyMap.class); //注册我们的程序——统计
job.setReducerClass(MyReduce.class); //注册我们的程序——执行合并步骤
//设定最终输出类型
job.setOutputKeyClass(Text.class);// 输出类型是歌曲,为文本
job.setOutputValueClass(IntWritable.class);// 输出的值,是歌曲的收藏量,为数字
//注册要统计的目录,及存放结果的目录
FileInputFormat.addInputPath(job, new Path(args[0]));// 统计HDFS系统下哪个目录下的文件
FileOutputFormat.setOutputPath(job, new Path(args[1]));// 输出结果的目录(HDFS系统下)
System.exit(job.waitForCompletion(true) ? 0 : 1);// 提交作业
}
}
public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
}
/**
* 假设一首歌A,分别被小明,小红收听。 目标:求A这首歌被多少人收听?
* 结果应该是: <歌A,2>
*
* 第1个 占位符:输入的key类型
* 第2个 占位符:表示输入的io流,会转成文本给到我们(以行为单位)
*
* 第3个 占位符:输出key (歌A是字符串) 为Text
* 第4个 占位符:输出value(2是数字。能计算) 为 IntWritable
*/
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {
@Override
protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context)
throws IOException, InterruptedException {
// song1 singer1 man slow pc
// song1 singer2 woman quick android
String[] rs = value.toString().split(" ");
context.write(new Text(rs[0]), new IntWritable(1));//统计歌名,1次
context.write(new Text(rs[2]), new IntWritable(1));//统计性别,1次
if(rs[4].equalsIgnoreCase("pc")) {
context.write(new Text("在pc端上的男性"), new IntWritable(1));//统计性别,1次
}
}
}
musicRecord.txt的内容
song1 singer1 man slow pc
song1 singer2 woman quick android

执行MyJobe程序

把我们的数据,放入HDFS中 先创建一个music目录(在hdfs中):hadoop fs -mkdir /music
把linux系统中的文件,存入hdfs中:hadoop fs -put ~/musicRecord.txt /music
查看目录是否有你存入的文件(可选):hadoop fs -ls /music 执行:hadoop jar ~/hadoopFile3.jar
/music/* /output4 查看结果:hadoop fs -cat /output4/*


778

被折叠的 条评论
为什么被折叠?



