一次MR作业Task数过多导致的集群阻塞的问题排查

最新推荐文章于 2026-06-17 10:19:47 发布

原创

最新推荐文章于 2026-06-17 10:19:47 发布 · 1.1k 阅读

·

0

·

本文分析了一次因大量任务提交导致的集群阻塞问题。通过监控发现资源被大量占用，进而形成Map和Reduce任务间的死锁。通过调整参数和错开任务执行时间，解决了资源竞争问题。

一次MR作业Task数过多导致的集群阻塞的问题排查

问题背景

集群出现一百多个任务排队，运行中的任务一百多个，bi的同事反馈大量任务延迟一万多秒

以下截图不全

在这里插入图片描述

排查问题

通过RM页面、spacex的监控、active的RM机器的负载和日志观察，确认ResourceManager目前状态正常
通过spacex的app监控发现集群在早上8.45的时候提交大量的任务
阻塞的任务基本都跑在root.bi_queue.bi_base 这个队列中，这个队列资源基本满了

大概排查方向确认

增加了大量任务导致集群资源不足而阻塞
大量任务跑在同个队列中

解决

停掉部分长时间运行的任务
确认运行中的占用大量资源的任务是否有问题
1. 发现insert overwrite table bi_ucar.ba_kan...o.dt(Stage-2) 这个任务耗费资源接近集群一半的资源
  
  同事反馈这个任务平时执行都是两三百秒，今天跑了一个多小时没完
  
  查看MR的监控发现触发了大量的MR任务，且Killed占近一半

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

RunningShare 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。