大数据技术_ linux系统 之 使用hdfs API (java编程方式)

使用hdfs api——java编程方式

示例项目 https://github.com/qiyueW/hadoop.file.git
1、编写MapReduce程序

继承public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
重写里面的map方法。
示例

命令说明示例备注
hadoop fs -mkdir 创建目录hadoop fs -mkdir /user在HDFS中创建“/user”目录
创建目录hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2同时创建多个目录

案例代码:
pom.xml

<properties>
		<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
		<maven.compiler.source>1.8</maven.compiler.source>
		<maven.compiler.target>1.8</maven.compiler.target>
		<hadoop.version>3.1.2</hadoop.version>
		<slf4j.version>1.7.7</slf4j.version>
		<log4j.version>1.2.17</log4j.version>
	</properties>

	<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>4.12</version>
			<type>jar</type>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<!-- 日志文件管理包 -->
		<dependency>
			<groupId>log4j</groupId>
			<artifactId>log4j</artifactId>
			<version>${log4j.version}</version>
		</dependency>
		<dependency>
			<groupId>org.slf4j</groupId>
			<artifactId>slf4j-api</artifactId>
			<version>${slf4j.version}</version>
		</dependency>
		<dependency>
			<groupId>org.slf4j</groupId>
			<artifactId>slf4j-log4j12</artifactId>
			<version>${slf4j.version}</version>
		</dependency>
	</dependencies>

	<build>
		<finalName>hadoopFile3</finalName>
		<plugins>
			<plugin>
				<groupId>org.apache.maven.plugins</groupId>
				<artifactId>maven-jar-plugin</artifactId>
				<version>2.4</version>
				<configuration>
					<archive>
						<manifest>
							<addClasspath>true</addClasspath>
							<!-- <mainClass>weixinkeji.vip.hadoop.file.CFile</mainClass> -->
							<!-- <mainClass>weixinkeji.vip.hadoop.file.IOFile</mainClass> -->
							<!-- <mainClass>weixinkeji.vip.hadoop.file.MyCount</mainClass> -->
							<mainClass>weixinkeji.vip.hadoop.file.mr.MyJob</mainClass>
						</manifest>
					</archive>
				</configuration>
			</plugin>
		</plugins>
	</build>
public class MyJob {
	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();// 配置封装处理对象
		Job job = Job.getInstance(conf, "word count");// 实例一个任务对象
		job.setJarByClass(MyJob.class);			   //通过class查找job的jar文件
		
//		job.setCombinerClass(MyReduce.class);// 可以省略 合并
		
		//注册
		job.setMapperClass(MyMap.class);		//注册我们的程序——统计
		job.setReducerClass(MyReduce.class);	//注册我们的程序——执行合并步骤
		
		//设定最终输出类型
		job.setOutputKeyClass(Text.class);// 输出类型是歌曲,为文本
		job.setOutputValueClass(IntWritable.class);// 输出的值,是歌曲的收藏量,为数字
		
		//注册要统计的目录,及存放结果的目录
		FileInputFormat.addInputPath(job, new Path(args[0]));// 统计HDFS系统下哪个目录下的文件
		FileOutputFormat.setOutputPath(job, new Path(args[1]));// 输出结果的目录(HDFS系统下)
		
		System.exit(job.waitForCompletion(true) ? 0 : 1);// 提交作业
	}
}

public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		int sum = 0;
		for (IntWritable val : values) {
			sum += val.get();
		}
		context.write(key, new IntWritable(sum));
	}
}

/**
 * 假设一首歌A,分别被小明,小红收听。 目标:求A这首歌被多少人收听?
 * 结果应该是: <歌A,2>
 * 
 * 第1个 占位符:输入的key类型 
 * 第2个 占位符:表示输入的io流,会转成文本给到我们(以行为单位)
 * 
 * 第3个 占位符:输出key (歌A是字符串) 为Text
 * 第4个 占位符:输出value(2是数字。能计算) 为 IntWritable
 */
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {

	@Override
	protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) 
			throws IOException, InterruptedException {
//		song1 singer1 man slow pc
//		song1 singer2 woman quick android
		String[] rs = value.toString().split(" ");
		context.write(new Text(rs[0]), new IntWritable(1));//统计歌名,1次
		context.write(new Text(rs[2]), new IntWritable(1));//统计性别,1次
		if(rs[4].equalsIgnoreCase("pc")) {
			context.write(new Text("在pc端上的男性"), new IntWritable(1));//统计性别,1次
		}
	}
}

musicRecord.txt的内容

song1 singer1 man slow pc
song1 singer2 woman quick android

在这里插入图片描述

执行MyJobe程序
在这里插入图片描述

把我们的数据,放入HDFS中 先创建一个music目录(在hdfs中):hadoop fs -mkdir /music
把linux系统中的文件,存入hdfs中:hadoop fs -put ~/musicRecord.txt /music
查看目录是否有你存入的文件(可选):hadoop fs -ls /music 执行:hadoop jar ~/hadoopFile3.jar
/music/* /output4 查看结果:hadoop fs -cat /output4/*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Coder_Boy_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值