一、数据在磁盘中按照列的方式进行组织和物理存储。
• 表的每一列物理上分开存储
• 数据以DC(数据单元)为单位进行组织,存成DC文件
• DC文件依据操作系统的文件大小限制进行分裂和存储
• DC是基本I/O单位,只有查询所涉及到的列才产生I/O
• 每个DC包含65536行数据,数据行数不足时以DC尾块形式单独存放。
• DC尾块不封装、不压缩。
二、面对海量数据分析的 I/O 瓶颈,分析型数据库把表数据按列的方式存储,其优势体现在以下几个方面。
• 降低 I/O:只有访问查询所涉及的列产生 I/O,查询没有涉及的列不需要访问,不产生 I/O;
• 高压缩比:压缩比可以达到 1:2 ~ 1:20 以上;
• 支持行列混存,降低 select *场景下的 I/O 量提升性能。
本文介绍了大数据分析中采用列式存储的优势,如降低I/O操作,实现高压缩比,并支持行列混存。列式存储使得只访问查询所需列,减少不必要的I/O,同时压缩比可达1:20以上,显著提高查询效率。

3152

被折叠的 条评论
为什么被折叠?



