【spark】metrics信息的获取（监听器等）

最新推荐文章于 2025-09-14 11:45:00 发布

原创

最新推荐文章于 2025-09-14 11:45:00 发布 · 3.3k 阅读

本文探讨了如何通过Spark监听器获取metrics信息，监控任务进度，以便在适当时机合并小文件，同时介绍了FileFormatWriter中的Metrics收集和传递方法。作者还分享了如何利用这些信息进行任务分析和优化建议。

一、背景

最近看到了一篇文章，说的是spark小文件合并的问题

Spark 小文件合并优化实践：https://mp.weixin.qq.com/s/195nFBH0kpZEXekHiQAfrA（作者：偷闲小苑）

其实关于小文件合并我之前也写过类似的文章，大体的方案也就是
1、存之前做一个数据量的预估，然后repartition/coalesce

2、存完之后，触发一个merge合并小文件（可以是hive也可以是spark任务）

3、使用一些数据湖（delta lake，hudi，iceberg）方案，不直接写入hdfs，写入中间层，让中间层自己去管理hdfs上的文件样式

前两者，其实都需要拿到数据的metrics信息，才能做数据量的判断

拿metrics其实spark代码中有挺多地方都可以拿到的：

（1）、最常用的就是监听器（SparkListener）

（2）、其次在数据落盘的时候也能拿到（FileFormatWriter）

（3）、最后其实一些shuflle操作啥的也能拿到（BypassMergeSortShuffleWriter），但这个粒度太细了，要做的话改动会很大

二、metrics获取

1、监听器获取

spark有一个类：SparkListener，我们可以自定义监听类，来实现当触发了spark任务执行到某个阶段，触发你自定义的代码，有点像AOP

这种方式是最方便的，因为不需要修改源码，也不嵌入业务逻辑，只需要写上自己的一个新的类，注册到上下文中

直接上代码：


class ListenerDemo1(conf: SparkConf) extends SparkListener with Logging {
  override def onApplicationStart(applicationStart: SparkListenerApplicationStart): Unit = {
    println("onApplicationStart")
  }

  /**
   * 一个Application可能会有多个job，一个action操作就是一个job
   * 所以如果代码中，执行了count和save，那么起码会有2个job
   * 每个job又有各自的stage
   * @param jobStart
   */
  override def onJobStart(jobStart: SparkListenerJobStart): Unit = {
    println("onJobStart")
    println("该任务总共有 : " + jobStart.stageIds.length+" 个stage")
  }

  /**
   * 第一个stage提交，task开始，task结束，stage结束
   * 然后开始下一个stage的提交。。。
   * 如果有多个task，会执行多次task开始和task结束
   */
  override def o