HDFS文件写入FSDataOutputStream中的持久化hsync()不起作用详解

最新推荐文章于 2023-10-15 09:36:55 发布

原创

最新推荐文章于 2023-10-15 09:36:55 发布 · 4.3k 阅读

标签

#hdfs #activemq #hsync

在将ActiveMQ中的爬虫数据实时抽取到HIVE表并写入HDFS时，发现FSDataOutputStream的hsync()方法无法实时持久化数据。问题在于HDFS的block只有达到128M时才会完成持久化。对比了hflush、hsync和close的区别，了解到hsync能确保数据在datanode上持久化。为解决此问题，深入源码，通过DFSOutputStream的hsync()方法配合特定参数实现了数据的正确持久化。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

问题说明

近期项目中用到实时抽取ActiveMQ中的爬虫数据到HIVE表中，但是在持久化数据到HDFS的时候，发现FSDataOutputStream.hsync()不能实时持久化，只能持久化第一条数据。
从一些文章中了解到，只有当HDFS中的block达到128M时，才可以使block处于completed状态，即持久化显示查到，故在代码测试中如果将流close掉，即可实现持久化，但是与业务场景不服；

拓展HDFS的hflush,hsync和close区别

hflush: 语义是保证flush的数据被新的reader读到，但是不保证数据被datanode持久化。
hsync: 与hflush几乎一样，不同的是hsync保证数据被datanode持久化。
close: 关闭文件，除了做到以上2点，还保证文件的所有block处于completed状态，并且将文件置为closed。