一次MR作业Task数过多导致的集群阻塞的问题排查
问题背景
集群出现一百多个任务排队,运行中的任务一百多个,bi的同事反馈大量任务延迟一万多秒
以下截图不全

排查问题
- 通过RM页面、spacex的监控、active的RM机器的负载和日志观察,确认ResourceManager目前状态正常
- 通过spacex的app监控发现集群在早上8.45的时候提交大量的任务
- 阻塞的任务基本都跑在root.bi_queue.bi_base 这个队列中,这个队列资源基本满了
大概排查方向确认
- 增加了大量任务导致集群资源不足而阻塞
- 大量任务跑在同个队列中
解决
-
停掉部分长时间运行的任务
-
确认运行中的占用大量资源的任务是否有问题
-
发现
insert overwrite table bi_ucar.ba_kan...o.dt(Stage-2)这个任务耗费资源接近集群一半的资源同事反馈这个任务平时执行都是两三百秒,今天跑了一个多小时没完
查看MR的监控发现触发了大量的MR任务,且
Killed占近一半
-

本文分析了一次因大量任务提交导致的集群阻塞问题。通过监控发现资源被大量占用,进而形成Map和Reduce任务间的死锁。通过调整参数和错开任务执行时间,解决了资源竞争问题。

1507

被折叠的 条评论
为什么被折叠?



