MapReduce变量传递设置及分布式缓存DistributedCache

最新推荐文章于 2020-09-25 15:23:42 发布

转载最新推荐文章于 2020-09-25 15:23:42 发布 · 1k 阅读

学习专栏收录该内容

54 篇文章

订阅专栏

本文介绍在MapReduce程序中如何从主函数传递全局变量到各节点，并讲解分布式缓存DistributedCache的使用方法及应用场景。

上节中我们提高在MapReduce中使用自定义的数据输入类，并且自己也实现了一个对应类叫MyTextInputFormat，重写了LineRecordReader类，并在MapReduce中成功使用。、

下面我讲介绍一些MapReduce程序中相关设置。
1. 如何 从主函数中传递全局变量到各个节点的mapreduce操作中使用，在新就mapreduce的api中相关设置略有不同，下面就展示几个简单的实现：
在旧mapred中，变量传递方法如下：
在主函数run方法中设置：conf.setBoolean("var", true);
若希望在map方法中使用该变量传递过来的值则可以写一个configure函数获取该变量值，则可以在map中进行使用了：booleanvar = job.getBoolean("var", true)；

下面我们将将一个在新mapreduce的api中使用传递一般变量的例子：
设置如下：

这是在ToolRunner调用的run方法中进行设置的，这里设置了两个变量，对应变量名和变量值。那么在map函数中需要调用时采用：

即可以获取所设置的变量。

2. 分布式缓存DistributedCache
memcached是高性能的分布式内存缓存服务器。一般的使用目的是，通过缓存数据库查询结果，减少对数据库的访问次数，以提高动态web应用的速度，提高可扩展性。
分布式缓存一个最重要的应用就是在进行join操作的时候，如果一个表很大，另一个表很小很小，我们就可以将这个小表进行广播处理，即每个计算节点上都存一份，然后进行map端的连接操作，经过我的实验验证，这种情况下处理效率大大高于一般的reduce端join，广播处理就运用到了分布式缓存的技术。可参考网站：http://blog.csdn.net/kingjinzi_2008/article/details/7741320。因此，在对hbase进行mapreduce操作时可以考虑使用分布式缓存方式。
调用过程如下：
同样在main的run方法中设置：