Spark产生小文件的原因及解决方案

原创

已于 2024-04-10 10:39:35 修改 · 2k 阅读

·

5

·

标签

#spark #大数据 #分布式

于 2024-04-08 16:45:52 首次发布

本文讨论了Hadoop中小文件的定义、产生过多的原因，如写操作不当和数据倾斜。小文件过多对NameNode性能、读取效率和计算任务有负面影响。文中提供了查看文件数量和大小的方法，以及小文件合并的解决方案，如使用distributeby和repartition来减少文件数量，以及开发压缩程序来优化存储。

一、小文件的定义

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之为小文件。

二、小文件产生过多的原因

写操作不当：如果在写数据时，设置的分区策略不当，或者没有指定合适的压缩策略，则可能产生大量小文件。
数据倾斜：如果spark任务处理的数据，某一个分区的数据量远远大于其他分区时，可能会导致该分区产生大量小文件。
其他待验证原因。

三、小文件过多的影响

对NameNode产生压力：HDFS中的每个文件都需要在NameNode里维护一份元数据信息（文件目录、大小等信息），大量小文件则会占用过多的NameNode内存，影响集群稳定性。
增加文件读取时间：如果某个表在HDFS中存放有大量的小文件，在访问该表获取数据时，需要先从NameNode获取元数据信息，再从DataNode读取对应数据，大量的小文件会导致频繁访问，影响读写效率。
容易导致task数量过多，且影响计算性能：spark计算时，每个小文件通常被视为一个单独的分区，而spark会为每个分区启动一个或多个task来进行计算，大量小文件会导致启动过多的task，有可能导致内存超出报错（Total size of serialized results of * tasks is bigger than spark.driver.maxResultSize）；其次，每个task的启动和销毁也会消耗时间，影响效率。

四、小文件查看方式

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。