MapReduce TopK 文件

本文介绍了一种使用Hadoop MapReduce统计每日访问Google的IP地址并找出访问次数最多的前K个IP的方法。通过自定义IP数据类型,并实现两个阶段的MapReduce作业:第一个作业统计每个IP的访问次数;第二个作业则从统计结果中选出访问次数最高的前K个IP。

问题描述:对于每日访问google 的ip做个记录 对应计算出当天前K个访问次数最多的ip地址。

对应此问题 先自定制一个ip格式的数据类型 继承WritableComparable接口。

[java]  view plain copy
  1. package reverseIndex;  
  2.   
  3. import java.io.DataInput;  
  4. import java.io.DataOutput;  
  5. import java.io.IOException;  
  6.   
  7. import org.apache.hadoop.io.IntWritable;  
  8. import org.apache.hadoop.io.Text;  
  9. import org.apache.hadoop.io.WritableComparable;  
  10.   
  11. public class ipAndcount implements WritableComparable<ipAndcount>{  
  12.     private Text ip;  
  13.     private IntWritable count;  
  14.     public ipAndcount(){  
  15.         this.ip = new Text("");  
  16.         this.count = new IntWritable(1);  
  17.     }  
  18.     public ipAndcount(Text ip,IntWritable count){  
  19.         this.ip =ip;  
  20.         this.count = count;  
  21.     }  
  22.     @Override  
  23.     public void readFields(DataInput input) throws IOException {  
  24.         // TODO Auto-generated method stub  
  25.         ip.readFields(input);  
  26.         count.readFields(input);  
  27.           
  28.     }  
  29.     @Override  
  30.     public void write(DataOutput output) throws IOException {  
  31.         // TODO Auto-generated method stub  
  32.         ip.write(output);  
  33.         count.write(output);  
  34.     }  
  35.     @Override  
  36.     public int compareTo(ipAndcount o) {  
  37.         // TODO Auto-generated method stub  
  38.         return ((ipAndcount)o).count.compareTo(count)==0?ip.compareTo(((ipAndcount)o).ip)  
  39.                 :((ipAndcount)o).count.compareTo(count);  
  40.     }  
  41.     public boolean equals(ipAndcount o){  
  42.         if(!(o instanceof ipAndcount)){  
  43.             return false;  
  44.         }  
  45.         ipAndcount other = (ipAndcount)o;  
  46.         return ip.equals(other.ip) &&(count.equals(other.count));  
  47.     }  
  48.     public String toString(){  
  49.         StringBuffer buf = new StringBuffer("IP=");  
  50.         buf.append(ip.toString());  
  51.         buf.append(",Count=");  
  52.         buf.append(count.toString());  
  53.         buf.append(";");  
  54.         return buf.toString();  
  55.     }  
  56.     public Text getIp(){  
  57.         return ip;  
  58.     }  
  59.     public IntWritable getCount(){  
  60.         return count;  
  61.     }  
  62.     public void setCount(IntWritable count){  
  63.         this.count = count;  
  64.     }  
  65. }  

此问题 应该分为俩个作业进行完成,一个用于统计IP及其整合的数量(类似WordCount)另一个用于选择出前K个进行输出:

[java]  view plain copy
  1. package reverseIndex;  
  2.   
  3. import java.io.IOException;  
  4.   
  5. import org.apache.hadoop.conf.Configuration;  
  6. import org.apache.hadoop.fs.Path;  
  7. import org.apache.hadoop.io.IntWritable;  
  8. import org.apache.hadoop.io.LongWritable;  
  9. import org.apache.hadoop.io.Text;  
  10. import org.apache.hadoop.mapreduce.Job;  
  11. import org.apache.hadoop.mapreduce.Mapper;  
  12. import org.apache.hadoop.mapreduce.Reducer;  
  13. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  14. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
  15. import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;  
  16. import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;  
  17. import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;  
  18. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  19. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;  
  20.   
  21.   
  22. //分为2个作业进行 完成 一个 用于统计每日的访问ip 另一个用于选择出前K个 访问高的ip  
  23. public class firstK {  
  24.       
  25.     public static class FindIpMapper extends Mapper<LongWritable, Text, Text, IntWritable>{  
  26.         private IntWritable one = new IntWritable(1);  
  27.         public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{  
  28.             context.write(value,one);  
  29.         }  
  30.     }  
  31.     public static class IpReducer extends Reducer<Text,IntWritable,Text,IntWritable>{  
  32.         public void reduce(Text key,Iterable<IntWritable>values,Context context) throws IOException, InterruptedException{  
  33.             int sum = 0;  
  34.             for(IntWritable val : values){  
  35.                 sum += val.get();  
  36.             }  
  37.             context.write(key, new IntWritable(sum));  
  38.         }  
  39.     }  
  40.     public static class beforeSortIpmapper extends Mapper<Text,Text,ipAndcount,Text>{  
  41.         public void map(Text key,Text value,Context context) throws IOException, InterruptedException{  
  42.             ipAndcount tmp = new ipAndcount(key,new IntWritable(Integer.valueOf(value.toString())));  
  43.             context.write(tmp,new Text());  
  44.         }  
  45.     }  
  46.     public static class selectTopKReducer extends Reducer<ipAndcount,Text,ipAndcount,Text>{  
  47.         int count = 0;  
  48.         int k = 10;  
  49.         public void reduce(ipAndcount key,Iterable<Text> values,Context context) throws IOException, InterruptedException{  
  50.             if(count<k){  
  51.                 context.write(key, null);  
  52.                 count++;  
  53.             }  
  54.         }  
  55.     }  
  56.     public static void main(String[] args) throws IOException {  
  57.         // TODO Auto-generated method stub  
  58.         Configuration conf = new Configuration();  
  59.         Job job1 = new Job(conf,"sum ip");  
  60.         job1.setJarByClass(firstK.class);  
  61.           
  62.         //默认输入输出格式  
  63.         job1.setInputFormatClass(TextInputFormat.class);  
  64.         job1.setOutputFormatClass(TextOutputFormat.class);  
  65.           
  66.         //读取文件路径 和输出路径  
  67.         Path in = new Path(args[0]);  
  68.         Path out = new Path(args[1]);  
  69.           
  70.         FileInputFormat.addInputPath(job1,in);  
  71.         FileOutputFormat.setOutputPath(job1,out);  
  72.       
  73.         //设置map的输入输出格式  
  74.         job1.setMapOutputKeyClass(Text.class);  
  75.         job1.setMapOutputValueClass(IntWritable.class);  
  76.         job1.setOutputKeyClass(Text.class);  
  77.         job1.setOutputValueClass(IntWritable.class);  
  78.         //设置处理类  
  79.         job1.setMapperClass(FindIpMapper.class);  
  80.         job1.setReducerClass(IpReducer.class);  
  81.         //reduce任务个数  
  82.         job1.setNumReduceTasks(7);  
  83.           
  84.         //作业2的配置  
  85.         Configuration conf2 = new Configuration();  
  86.         Job job2 = new Job(conf2,"select K");  
  87.         job1.setJarByClass(firstK.class);  
  88.         job1.setInputFormatClass(KeyValueTextInputFormat.class);  
  89.         job1.setOutputFormatClass(TextOutputFormat.class);  
  90.           
  91.         Path in2 = new Path(args[1]);  
  92.         Path out2 = new Path(args[2]);  
  93.         FileInputFormat.addInputPath(job2,in2);  
  94.         FileOutputFormat.setOutputPath(job2,out2);  
  95.           
  96.         job1.setMapOutputKeyClass(ipAndcount.class);  
  97.         job1.setMapOutputValueClass(Text.class);  
  98.         job1.setOutputKeyClass(ipAndcount.class);  
  99.         job1.setOutputValueClass(Text.class);  
  100.         job1.setMapperClass(beforeSortIpmapper.class);  
  101.         job1.setReducerClass(selectTopKReducer.class);  
  102.         job1.setNumReduceTasks(1);  
  103.           
  104.         //作业的关联性  使用jobcontrol进行处理  
  105.         JobControl jc = new JobControl("select k ip");  
  106.           
  107.         ControlledJob cjob1 = new ControlledJob(conf);  
  108.         cjob1.setJob(job1);  
  109.         ControlledJob cjob2 = new ControlledJob(conf2);  
  110.         cjob2.setJob(job2);  
  111.           
  112.         jc.addJob(cjob1);  
  113.         jc.addJob(cjob2);  
  114.         //依赖关系  
  115.         cjob2.addDependingJob(cjob1);  
  116.         jc.run();  
  117.     }  
  118. }  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值