regionserver实例僵住问题分析

问题现象:

  • 应用提交超时,发现regionserver实例异常。hbase原生页面这个实例dead,业务连接到这个rs的进程超时8个regionserver实例。

  • D08在18:30分后显示warning,应用提交任务到这个rs节点超时,hbase控制台不显示d08的rs信息了。19:30在页面停止rs实例失败,然后kill进程。18:30统计图等就不刷新了,但是机器里rs进程在。

  • d08节点还有dn,nn,worker实例。

  • 查看d08,发现没有最近时间的gc日志。rs日志,18:30-19:30没有日志。没有error和warn。

  • 查看指标图,cpu、内存、gc等都未见异常。主机ip为234

  • 查看hbase服务日志,18:33分,显示7个rs正常,1个结束。

  • 查看5个zk节点日志搜索D08的ip,显示有close socket session 180s超时

  • 再次检查rs日志,有大量的flush操作,时间100s+ .还有slow sync在日志信息里

问题分析

  1. rs节点上flush数据操作有单独的线程进行处理,且默认线程数是1,flush操作不会导致zookeeper和rs进程连接超时。

rs日志显示rs进程在18:30:00以后停止打印日志,zookeeper日志显示rs进程的会话在18:33:15
时出现会话超过180s的过期,rs进程与zookeeper连接超时断开。在master日志中可以得到佐证:
d08节点上rs进程在zookeeper上的临时节点在18:33:18被删除,该节点被踢出hbase集群,master开始执行该节点的宕机恢复流程。

按照正常逻辑,rs和zookeeper连接超时断开后,该rs会处理对应的事件,并输出fatal级别的"AB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

spring208208

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值