目录
一、前言
不管是关系性数据库,比如像mysql,还是类关系型数据库,像mongodb,为了确保在建表开始使用之后,能够充分发挥数据表的高性能查询,需要在表的设计阶段,从表的设计,索引的设计,分区的设计等等一系列因素综合去平衡和考虑,以免为上线后的优化工作带来麻烦。本篇将介绍hive关于表设计常用的一些优化策略。
二、hive 普通表查询原理
通过之前的学习,想必大家对hive的查询原理不再陌生,下图是hive查询的原理图;

为什么要说查询原理呢,理解一个软件的设计有必要对其原理做一定的了解,就像之前学习mysql一样,只有了解了innodb引擎的工作原理,才能更好的指导我们sql的做性能优化,关于hive的查询原理,再做如下补充:
- Hive的设计思想是通过元数据解析描述将HDFS上的文件映射成表;
- 基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时,默认将其转

本文介绍了Hive表设计的优化策略,包括分区表和分桶表的概念及操作演示,强调了分区表在减少数据扫描方面的优势。此外,还讨论了Hive中的索引设计,虽然其在某些版本后被移除,但依然解释了索引的基本原理和潜在问题。通过这些策略,可以显著提升Hive查询性能。
订阅专栏 解锁全文

9492

被折叠的 条评论
为什么被折叠?



