hadoop
-file :本地分发,不需先上传到集群。(属于临时上传到集群,任务结束时问从集群中消失)
-cacheFile :由集群上的文件分发到各个节点。(需人为先上传到集群)
-cacheArchive :与cacheFile类似,差别在于cacheArchive的方式的文件为压缩文件
本文详细介绍了Hadoop Streaming工具中-file、-cacheFile和-cacheArchive参数的用途和区别,重点讨论了它们如何帮助优化MapReduce作业的数据本地性和性能。通过对这些选项的理解,读者将能够更好地管理作业中依赖的辅助文件,提高Hadoop集群的效率。
hadoop

被折叠的 条评论
为什么被折叠?
