大数据技术_ linux系统之使用hdfs API (java编程方式)

最新推荐文章于 2024-11-12 10:23:56 发布

原创最新推荐文章于 2024-11-12 10:23:56 发布 · 617 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#java #hadoop #大数据

Java架构师同时被 2 个专栏收录

117 篇文章

订阅专栏

大数据技术

18 篇文章

订阅专栏

使用hdfs api——java编程方式

示例项目 https://github.com/qiyueW/hadoop.file.git
1、编写MapReduce程序

继承public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
重写里面的map方法。
示例

命令	说明	示例	备注
hadoop fs -mkdir	创建目录	hadoop fs -mkdir /user	在HDFS中创建“/user”目录
	创建目录	hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2	同时创建多个目录

案例代码：
pom.xml

<properties>
		<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
		<maven.compiler.source>1.8</maven.compiler.source>
		<maven.compiler.target>1.8</maven.compiler.target>
		<hadoop.version>3.1.2</hadoop.version>
		<slf4j.version>1.7.7</slf4j.version>
		<log4j.version>1.2.17</log4j.version>
	</properties>

	<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>4.12</version>
			<type>jar</type>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>${hadoop.version}</version>
		</dependency>
		<!-- 日志文件管理包 -->
		<dependency>
			<groupId>log4j</groupId>
			<artifactId>log4j</artifactId>
			<version>${log4j.version}</version>
		</dependency>
		<dependency>
			<groupId>org.slf4j</groupId>
			<artifactId>slf4j-api</artifactId>
			<version>${slf4j.version}</version>
		</dependency>
		<dependency>
			<groupId>org.slf4j</groupId>
			<artifactId>slf4j-log4j12</artifactId>
			<version>${slf4j.version}</version>
		</dependency>
	</dependencies>

	<build>
		<finalName>hadoopFile3</finalName>
		<plugins>
			<plugin>
				<groupId>org.apache.maven.plugins</groupId>
				<artifactId>maven-jar-plugin</artifactId>
				<version>2.4</version>
				<configuration>
					<archive>
						<manifest>
							<addClasspath>true</addClasspath>
							<!-- <mainClass>weixinkeji.vip.hadoop.file.CFile</mainClass> -->
							<!-- <mainClass>weixinkeji.vip.hadoop.file.IOFile</mainClass> -->
							<!-- <mainClass>weixinkeji.vip.hadoop.file.MyCount</mainClass> -->
							<mainClass>weixinkeji.vip.hadoop.file.mr.MyJob</mainClass>
						</manifest>
					</archive>
				</configuration>
			</plugin>
		</plugins>
	</build>

public class MyJob {
	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();// 配置封装处理对象
		Job job = Job.getInstance(conf, "word count");// 实例一个任务对象
		job.setJarByClass(MyJob.class);			   //通过class查找job的jar文件
		
//		job.setCombinerClass(MyReduce.class);// 可以省略 合并
		
		//注册
		job.setMapperClass(MyMap.class);		//注册我们的程序——统计
		job.setReducerClass(MyReduce.class);	//注册我们的程序——执行合并步骤
		
		//设定最终输出类型
		job.setOutputKeyClass(Text.class);// 输出类型是歌曲，为文本
		job.setOutputValueClass(IntWritable.class);// 输出的值，是歌曲的收藏量，为数字
		
		//注册要统计的目录，及存放结果的目录
		FileInputFormat.addInputPath(job, new Path(args[0]));// 统计HDFS系统下哪个目录下的文件
		FileOutputFormat.setOutputPath(job, new Path(args[1]));// 输出结果的目录(HDFS系统下)
		
		System.exit(job.waitForCompletion(true) ? 0 : 1);// 提交作业
	}
}


public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		int sum = 0;
		for (IntWritable val : values) {
			sum += val.get();
		}
		context.write(key, new IntWritable(sum));
	}
}

/**
 * 假设一首歌A，分别被小明，小红收听。 目标：求A这首歌被多少人收听？
 * 结果应该是： <歌A,2>
 * 
 * 第1个 占位符：输入的key类型 
 * 第2个 占位符：表示输入的io流，会转成文本给到我们（以行为单位）
 * 
 * 第3个 占位符：输出key (歌A是字符串) 为Text
 * 第4个 占位符：输出value(2是数字。能计算) 为 IntWritable
 */
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {

	@Override
	protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) 
			throws IOException, InterruptedException {
//		song1 singer1 man slow pc
//		song1 singer2 woman quick android
		String[] rs = value.toString().split(" ");
		context.write(new Text(rs[0]), new IntWritable(1));//统计歌名，1次
		context.write(new Text(rs[2]), new IntWritable(1));//统计性别，1次
		if(rs[4].equalsIgnoreCase("pc")) {
			context.write(new Text("在pc端上的男性"), new IntWritable(1));//统计性别，1次
		}
	}
}

musicRecord.txt的内容

song1 singer1 man slow pc
song1 singer2 woman quick android

在这里插入图片描述

执行MyJobe程序
在这里插入图片描述

把我们的数据，放入HDFS中先创建一个music目录（在hdfs中）：hadoop fs -mkdir /music
把linux系统中的文件，存入hdfs中：hadoop fs -put ~/musicRecord.txt /music
查看目录是否有你存入的文件（可选）：hadoop fs -ls /music 执行：hadoop jar ~/hadoopFile3.jar
/music/* /output4 查看结果：hadoop fs -cat /output4/*