【大数据Hive】hive 表设计常用优化策略

原创已于 2024-02-21 12:37:04 修改 · 置顶 · 8.9k 阅读

·

71

·

标签

#hive表优化策略 #hive常用的优化策略 #如何对hive表优化 #hive分桶表 #hive索引

于 2024-02-14 20:08:27 首次发布

hive入门到精通同时被 2 个专栏收录

18 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

20 篇文章

订阅专栏

本文介绍了Hive表设计的优化策略，包括分区表和分桶表的概念及操作演示，强调了分区表在减少数据扫描方面的优势。此外，还讨论了Hive中的索引设计，虽然其在某些版本后被移除，但依然解释了索引的基本原理和潜在问题。通过这些策略，可以显著提升Hive查询性能。

实战派 ESP32-S3，双模无线开发板

ESP32-S3 原生支持 ESP-IDF，WiFi + 蓝牙一次搞定

点击查看

目录

二、hive 普通表查询原理

2.1 操作演示说明

2.1.1 创建一张表，并加载数据

2.1.2 统计3月24号的登录人数

2.1.3 查询原理过程总结

2.2 普通表结构带来的问题

三、hive分区表设计

3.1 区表结构 - 分区设计思想

3.2 操作演示

3.2.1 创建分区表按照登录日期分区

3.2.2 开启动态分区

按登录日期分区

基于分区表查询数据

查询先检索元数据

查询执行计划

四、hive分桶表设计

4.1 Hive中Join的问题

4.2 分桶表设计思想

4.3 创建分桶表操作

创建第一张普通表

构建分桶emp表

创建第二张普通表dept并加载数据

构建分桶dept表并加载数据

4.4 普通表与分桶表join执行分析

普通表的join执行计划分析

分桶的Join执行计划分析

五、hive索引设计

5.1 hive索引说明

5.2 Hive中索引基本原理

5.2.1 Hive索引目的

5.3 索引的使用

5.4 Hive索引的问题

六、写在文末

一、前言

不管是关系性数据库，比如像mysql，还是类关系型数据库，像mongodb，为了确保在建表开始使用之后，能够充分发挥数据表的高性能查询，需要在表的设计阶段，从表的设计，索引的设计，分区的设计等等一系列因素综合去平衡和考虑，以免为上线后的优化工作带来麻烦。本篇将介绍hive关于表设计常用的一些优化策略。

二、hive 普通表查询原理

通过之前的学习，想必大家对hive的查询原理不再陌生，下图是hive查询的原理图；

为什么要说查询原理呢，理解一个软件的设计有必要对其原理做一定的了解，就像之前学习mysql一样，只有了解了innodb引擎的工作原理，才能更好的指导我们sql的做性能优化，关于hive的查询原理，再做如下补充：

Hive的设计思想是通过元数据解析描述将HDFS上的文件映射成表；
基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时，默认将其转

实战派 ESP32-S3，双模无线开发板

ESP32-S3 原生支持 ESP-IDF，WiFi + 蓝牙一次搞定

点击查看

了解本专栏

超级会员免费看

评论 105

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

逆风飞翔的小叔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。