Druid 存储格式

最新推荐文章于 2026-04-09 19:06:05 发布

原创最新推荐文章于 2026-04-09 19:06:05 发布 · 1.3k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#druid #存储

druid 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了Druid数据存储的基本单位——segment，并解释了segment如何分布在historical和实时节点上。详细阐述了segment的组成、生成规则及存储方式，同时对比了列式存储与行式存储的优势。

Druid 的数据表是由一组分布在集群中不同的historical节点上和实时节点上的segment组成，一个segment包含了一定时间段内的数据，所有的读写操作都发生在segment上，它是Druid操作的最小单元。Real-time节点在生成segment时，segment的名称由数据源（表）、起始时间、结束时间、版本号四部分组成，作为segment的唯一标识。版本号越大，数据越新（疑问：版本号是怎样改变的？）。在查询时，会加载相应时间段内的最新版本的segment。

Segment采用的是类LSM树结构的列式存储，类LSM树结构和LSM树结构不同的是省去了WAL（预写日志）部分（疑问：不会有数据丢失吗?），通常会被上传到HDFS或S3上做深存储。相比行式存储，列式存储可以更加高效的使用CPU，因为加载时，按需取数据，只加载需要的列即可，不必把行中部分不相关的数据都加载进来；另外，列出存储也可以针对不同列字段类型采用不同的压缩算法，更加节省内存和磁盘空间。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。