spark的DataFrame数据保存到hdfs产生过多小文件该怎么解决

最新推荐文章于 2023-06-15 10:50:02 发布

原创最新推荐文章于 2023-06-15 10:50:02 发布 · 5.1k 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#spark #dataframe #dataframe数据写到hdfs

收录于

本文探讨了在使用Spark进行大数据处理时，如何通过调整DataFrame的分区数量来优化写入HDFS的性能，避免产生过多小文件。介绍了在保存前将partitions设置为特定值的方法，并强调了在设置时需要预估DataFrame大小的重要性。

写入过程产生过多小文件是因为多线程并行向hdfs写入造成的，所以可以再save之前设置dataframe的partitions设置为0，但是这样设置一定会影响spark写入的性能

val result: DataFrame = WorkOperator ( dataFrame, sparkSession ).controller ( operator )
      //df保存到hdfs
      //coalesce中的参数是指定写到hdfs的block的个数，避免产生过多的小文件，但是提前需要预估dataframe的大小
      val value: Dataset[Row] = result.coalesce(1)
      value.write.mode(SaveMode.Overwrite).save(dataDir + name)

使用上述方法进行设置，需要预估dataframe的大小，根据这个大小设置block的多少，保证了spark的性能