"脑裂"问题:Resource Manager由于网络闪退或者自身故障未及时对外做出响应,出现“假死”现象,导致出发了Zookeeper新一轮的主备切换,但是,对于“假死”的RM自身来说,它仍认为自己是Active,所以导致整个系统中出现多个Active的RM。
“隔离”机制解决问题:在主备切换时,在RM竞争创建锁节点时,会携带zookeeper的ACL权限进行限制,目的是独占该节点。在主备切换后,原来“假死”的RM恢复后,会去更新zookeeper的节点状态,如果发现ACL不对,节点不是自己创建的,会将自己自动更新为standby状态,这样,保证了系统中只有一个Active的RM。
本文探讨了Hadoop中ResourceManager(RM)遇到的“脑裂”问题,即在网络闪退或故障时RM可能出现假死,导致多个Active RM并存。为解决此问题,介绍了利用Zookeeper的隔离机制,通过ACL权限限制确保在主备切换后只有一个Active RM。当原RM恢复后,若发现节点ACL不符则自动切换为Standby状态,从而保持系统的稳定运行。

955

被折叠的 条评论
为什么被折叠?



