hadoop 一些基本问题

最新推荐文章于 2024-08-12 10:33:22 发布

转载最新推荐文章于 2024-08-12 10:33:22 发布 · 194 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://my.oschina.net/LiuLangEr/blog/855316

标签

#大数据 #python

本文解答了Hadoop集群中常见的几个问题，包括MR程序运行错误、HDFS的datanode与namenode同步问题、datanode下线的检测机制以及副本数量的设定方式等。

2019独角兽企业重金招聘Python工程师标准>>>

1/运行mr程序出错

            connecting to resoucemanager
            retrying ....
            retrying .....

原因是没有启动yarn或者启动失败

2/初始化工作目录结构

hdfs namenode -format 只是初始化了namenode的工作目录
而datanode的工作目录是在datanode启动后自己初始化的

3/datanode不被namenode识别的问题

            namenode在format初始化的时候会形成两个标识：
            blockPoolId：
           clusterId：

新的datanode加入时，会获取这两个标识作为自己工作目录中的标识

一旦namenode重新format后，namenode的身份标识已变，而datanode如果依然
持有原来的id，就不会被namenode识别

4/datanode下线后多久看到效果

datanode不是一下线就会被namenode认定为下线的，有一个超时时间

5/关于副本数量的问题

副本数由客户端的参数dfs.replication决定（优先级： conf.set > 自定义配置文件 > jar包中的hdfs- default.xml）

转载于:https://my.oschina.net/LiuLangEr/blog/855316

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。