Hive系列之-6、Hive的调优

最新推荐文章于 2024-05-15 23:24:14 发布

原创最新推荐文章于 2024-05-15 23:24:14 发布 · 275 阅读

标签

#hive #hadoop #big data

收录于

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大数据系列文章目录

本地模式

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。
用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。

set hive.exec.mode.local.auto=true;  --开启本地mr
--设置local mr的最大输入数据量，当输入数据量小于这个值时采用local  mr的方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=51234560;
--设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local m