一次MR作业Task数过多导致的集群阻塞的问题排查

本文分析了一次因大量任务提交导致的集群阻塞问题。通过监控发现资源被大量占用,进而形成Map和Reduce任务间的死锁。通过调整参数和错开任务执行时间,解决了资源竞争问题。

一次MR作业Task数过多导致的集群阻塞的问题排查

问题背景

集群出现一百多个任务排队,运行中的任务一百多个,bi的同事反馈大量任务延迟一万多秒

以下截图不全

在这里插入图片描述

排查问题

  1. 通过RM页面、spacex的监控、active的RM机器的负载和日志观察,确认ResourceManager目前状态正常
  2. 通过spacex的app监控发现集群在早上8.45的时候提交大量的任务
  3. 阻塞的任务基本都跑在root.bi_queue.bi_base 这个队列中,这个队列资源基本满了

大概排查方向确认

  1. 增加了大量任务导致集群资源不足而阻塞
  2. 大量任务跑在同个队列中

解决

  1. 停掉部分长时间运行的任务

  2. 确认运行中的占用大量资源的任务是否有问题

    1. 发现insert overwrite table bi_ucar.ba_kan...o.dt(Stage-2) 这个任务耗费资源接近集群一半的资源

      同事反馈这个任务平时执行都是两三百秒,今天跑了一个多小时没完

      查看MR的监控发现触发了大量的MR任务,且Killed占近一半

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

RunningShare

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值