hive上亿级别的表关联调优

最新推荐文章于 2025-08-23 16:27:42 发布

转载

最新推荐文章于 2025-08-23 16:27:42 发布 · 3.1k 阅读

标签

#大数据

收录于

本文讲述了在处理上亿级别数据表关联时遇到的性能问题，通过研究发现，由于使用了order by、笛卡尔积等操作导致Hive只分配了一个reduce任务。通过增加聚合函数、调整表关联顺序以及启用并行执行，成功将运行时间从3小时降低到15分钟，实现了调优。同时，文章提醒注意并行执行的资源需求，并鼓励IT领域的知识分享与交流。

环境：公司决定使用宽表，将10个相关的大表进行全量关联

（1个上亿级别的表，5个上千万的表，剩下的表都不到百万的表）

花了两天的时间研究，测试

例如： a~g这几个表中，a表为上亿级别的表，5个上千万的表，剩下为表都百万的表

select a.uesrid,b.citycode,b.register_num,  ...  ,g.active_num 
from
(select userid,citycode from a)
left outer join
(select userid,register_num from b)
on (a.userid=b.userid)
...
left outer join
(select userid,active_num from g)
on (a.userid=b.userid)

你会发现
最后一个job异常慢，并且reduce为1。

也多人会说，你傻逼呀，设置reduce数呀，对这是一个好办法，但是结果如何呢？

#设置传输格式
set mapred.output.compress=true;  
set hive.ex

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chimoren0700

关注关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hive跨表JOIN性能优化：基于抽样统计的实战解决方案

石榴姐yyds

04-03

338

前置诊断：通过10%抽样快速定位倾斜键，避免全局计算开销。分层优化热点键分治解决数据倾斜分桶表消除ShuffleMap Join加速小表关联统计驱动：定期收集表级统计信息，赋能CBO生成最优执行计划。我是会飞的一十六，专注分享硬核大数据技术💬 欢迎留言讨论：你遇到过最坑的JOIN场景是什么？📌思考题：当遇到数据倾斜严重的关联场景时，抽样策略应该如何调整？欢迎在评论区分享你的实战经验！

参与评论您还未登录，请先登录后发表或查看评论

Hive 性能调优大全

ytp552200ytp的博客

06-13

5590

Hive 性能调优大全

Hive之表优化

勇心在馨

02-09

2290

一、小表、大表 Join 将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用 map join 让小的维度表（1000 条以下的记录条数）先进内存。在 map 端完成 reduce。新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。例： 1、创建大...

hive通过union all 实现 join

yisun123456的博客

11-07

1029

对于join操作，需要shuffle，在reduce端进行。所以对于数据量超大，比如两个表记录条数均在亿级别的，往往会导致计算时间过长。那如何可以高效的完成呢？就是将关联操作尽量的迁移到map端。具体做法： select uid, COALESCE(a,null) as a, COALESCE(b,null) as b from( select uid, a,null as b from table1 -- uid 唯一 union all select uid , null ...

hive优化：大表关联数据倾斜问题

03-22

3689

A表：单副本14.9G,1002354875条数据 B表：单副本1.5G，40102307条数据两个表通过partition_path字符串去full outer join关联，没有优化前执行要88分钟第一种优化：在sql结尾使用distribute by rand() ，reduce个数88个，但是还是有数据倾斜 select * from A full outer join B on a.partition_path =b.join_path distribute by r...

十亿级表和亿级表join不动的解决方案

weixin_39031707的博客

08-21

2948

在开发中遇到问题表t_dmp_idfa_bundle_country_array_middle_tbl (后面简称表1)一个分区的数据量是40亿临时表t_ifa_tbl (后面简称表2)数据量3亿条数据表1 left join 表2 ,直接就挂掉了错误一般是类似于如下的错误 BlockManagerMasterEndpoint: No more replicas available fo...

007.hive上亿级别的表关联调优

weixin_33682790的博客

06-13

949

为什么80%的码农都做不了架构师？>>> ...

Hive 调优集锦，让 Hive 调优想法不再碎片化_hive metastore内存调优

2401_89694130的博客

12-17

1308

Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行，所以说 Hive 是基于Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在HDFS 中的数据进行分析和管理。Hive 作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。

Hive 调优集锦，让 Hive 调优想法不再碎片化

云祁QI

03-23

1484

一、前言 1.1 概念 Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行，所以说 Hive 是基于Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在HDFS 中的数据进行分析和管理。 1.2 架构 1．用户接口：Client CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive） 2．元数据：Metastore 元数据包括：表名、表所属的数据库（默认

hive表间的四种优化

weixin_49196517的博客

01-30

1108

hive的优化问题

Hive多表关联

mrgui008的博客

02-28

1587

Hive多表连接

Hadoop 中的两表join

有时间就有历史，有历史就有传奇。

03-29

316

转自：http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html 作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法...

HIVE中表之间相互联系的方式小结

yoghurt

09-24

1380

HIVE中表之间相互联系的方式小结：今天总结了一下hive中表与表之间发生关联的方式，大概的有以下几种，日后再补充：先建立两张表：user+job 表的数据结构： -------------------------------------------------- user： user_id name 1 张三 2 李四 3 王五 create external table

Hive优化总结

GodxvA

03-30

9023

一、SQL本身的优化 1、只select需要的列，避免select * 2、where条件写在子查询中，先过滤再关联 3、关联条件写在on中，而不是where中 4、数据量大时，用group by代替count distinct 5、数据量小时，用in代替join 6、避免笛卡尔积 7、join时大表放后面，使用相同的连接键 7、严格格式 Hive.mapred.mode，分 nonstrict，strict，默认是nonstrict，如果设置为strict，对三种情况限制：（1）分区表必须加分区。

hive两大表关联优化试验

最新发布

不辉放弃的博客

08-23

1305

Hive中Join操作的核心优化策略：1）根据数据规模选择合适join方式：小表用MapJoin、大表用ReduceJoin、分桶表用BucketJoin；2）预处理优化：数据过滤、分区修剪、列式存储；3）执行优化：控制join顺序、避免笛卡尔积、统一key类型；4）高级优化：启用CBO、调整shuffle参数、处理数据倾斜。合理组合这些策略可显著提升海量数据关联效率。

化亿级海量于秒级瞬间：大表关联计算提速

whalecloud的博客

07-04

2582

如何快速对数据进行分析，并获取其中有价值的信息；能够在亿级明细大表间关联分析，有很好的实时效率

hive配置项优化解决关于hive表多表关联的问题

weixin_40242658的博客

05-06

2743

1.场景： hive多表关联使用join关联时，sql语句不执行。如下sql： select b.phoneno,b.statuscode,b.strategyid from whphone a left join rm_workerorder_info b on a.phoneno=b.phoneno where a.time<b.opertime and b.channelid=‘0’...

Hive中小表与大表关联(join)的性能分析

niuyan666的博客

07-08

1412

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内存中放不下怎么办？我用2个只有几条记录的表做关联查询，这应该算是小表了，在查看reduce的执行日志时依然是有写磁盘的操作的。实际上reduce在接收全部map的输出后一定会有一个排序所有键值对并合并写入磁盘

必须掌握的Hive数据库表join规范

最近开始研究AIGC领域技术，欢迎交流

03-17

475

在普通连接中，Hive 会将关联的两个表都完全加载到内存中，然后将它们连接在一起。在 Bucket Join 中，Hive 会将关联的两个表都按照相同的字段进行哈希分桶，然后将相同哈希值的数据放到同一个桶中，然后进行连接。在 Map Join 中，Hive 会将其中一个表加载到内存中，然后通过 Map 算法将另一个表映射到内存中的表上进行关联。随着技术的快速发展，TB级甚至PB级海量数据场景越来越普遍，虽然大数据HDFS已经很好的解决了分布式存储的问题，但并不等于能够随心所欲的快速检索。

hive上亿级别的表关联 调优

hive上亿级别的表关联调优