参照官方文档,将 flume client 收集的日志文件 汇总到 flume sink收集端,然后存储到hdfs 中,默认会按生成许多小文件,如图所示
实际中可能只需要生成一个文件即可,这就涉及到了几个相关参数设置如下即可
需要修改的文件位于 flume/conf/ 下面,
agent.sinks.sink1.hdfs.round=true
agent.sinks.sink1.hdfs.roundValue=5
agent.sinks.sink1.hdfs.roundUnit=minute
agent.sinks.sink1.hdfs.rollInterval=30
agent.sinks.sink1.hdfs.rollSize=0
agent.sinks.sink1.hdfs.rollCount=0
相关参数的具体含义可以参考 flume1.4 的 官方文档。
设置之后重新启动flume集群,即可
本文介绍了如何通过调整Flume1.4的参数,避免在将日志数据汇总到HDFS时产生大量小文件。关键设置包括round、roundValue、roundUnit、rollInterval、rollSize和rollCount,这些参数的详细解释可在官方文档中找到。调整这些参数后重启Flume集群,可以实现将日志数据合并为更少的大文件。

4613

被折叠的 条评论
为什么被折叠?



