hadoop streaming -file -cacheFile -cacheArchive 区别

本文详细介绍了Hadoop Streaming工具中-file、-cacheFile和-cacheArchive参数的用途和区别,重点讨论了它们如何帮助优化MapReduce作业的数据本地性和性能。通过对这些选项的理解,读者将能够更好地管理作业中依赖的辅助文件,提高Hadoop集群的效率。

hadoop

-file   :本地分发,不需先上传到集群。(属于临时上传到集群,任务结束时问从集群中消失)
 
-cacheFile :由集群上的文件分发到各个节点。(需人为先上传到集群)
 
-cacheArchive :与cacheFile类似,差别在于cacheArchive的方式的文件为压缩文件
 
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值