一、小文件的定义
Hadoop集群中的文件都是以块(Block)的形式存储在分布式文件系统(HDFS)中的,而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB,其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时,若一个文件的大小显著小于128MB,我们就称之为小文件。
二、小文件产生过多的原因
- 写操作不当:如果在写数据时,设置的分区策略不当,或者没有指定合适的压缩策略,则可能产生大量小文件。
- 数据倾斜:如果spark任务处理的数据,某一个分区的数据量远远大于其他分区时,可能会导致该分区产生大量小文件。
- 其他待验证原因。
三、小文件过多的影响
- 对NameNode产生压力:HDFS中的每个文件都需要在NameNode里维护一份元数据信息(文件目录、大小等信息),大量小文件则会占用过多的NameNode内存,影响集群稳定性。
- 增加文件读取时间:如果某个表在HDFS中存放有大量的小文件,在访问该表获取数据时,需要先从NameNode获取元数据信息,再从DataNode读取对应数据,大量的小文件会导致频繁访问,影响读写效率。
- 容易导致task数量过多,且影响计算性能:spark计算时,每个小文件通常被视为一个单独的分区,而spark会为每个分区启动一个或多个task来进行计算,大量小文件会导致启动过多的task,有可能导致内存超出报错(Total size of serialized results of * tasks is bigger than spark.driver.maxResultSize);其次,每个task的启动和销毁也会消耗时间,影响效率。
四、小文件查看方式

本文讨论了Hadoop中小文件的定义、产生过多的原因,如写操作不当和数据倾斜。小文件过多对NameNode性能、读取效率和计算任务有负面影响。文中提供了查看文件数量和大小的方法,以及小文件合并的解决方案,如使用distributeby和repartition来减少文件数量,以及开发压缩程序来优化存储。

870

被折叠的 条评论
为什么被折叠?



