在 Map[Reduce] 的 setup 中读取 HDFS 文件夹信息

最新推荐文章于 2022-11-20 18:35:22 发布

原创

最新推荐文章于 2022-11-20 18:35:22 发布 · 6.4k 阅读

·

1

·

本文介绍了如何在MapReduce的setup阶段读取HDFS上的文件夹信息，避免通过额外Map任务。以/user/data/userinfo目录下的用户信息列表为例，每个文件包含格式为'userid + + [其他参数]'的数据。示例代码展示了在Map类的setup方法中进行读取，但要注意，这会导致数据被重复读取与处理的次数等于Map任务的数量。

有时候，我们想在 Map 或者 Reduce 执行前读取一些数据信息（量相对比较小），又不想通过另一个 Map 来读取，就可以在该Map 的 setup 中来完成该操作。

相关定义

1.在HDFS上某一文件夹下存放用户信息列表：

/user/data/userinfo/part-00000

/user/data/userinfo/part-00001

...

/user/data/userinfo/part-00020
<

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。