Spark SQL 集成Hive（一）

最新推荐文章于 2025-09-25 13:00:40 发布

原创

最新推荐文章于 2025-09-25 13:00:40 发布 · 805 阅读

·

0

·

标签

#apache spark #spark #分布式计算 #sql #大数据

本文介绍了如何将Spark SQL与Hive进行集成，重点讨论了直接使用Spark SQL替代Hive的方法。首先，文章背景中指出Hive和Spark SQL都是SQL转换器，不同在于执行引擎。集成步骤包括环境准备，如安装Spark、CentOS、JDK和MySQL，并创建允许跨IP访问的账号。然后，详细说明了集成过程，包括创建Hive-site.xml配置文件，启动相关服务，并强调在使用`spark-sql`时需使用client模式。最后，文章提到了数据存储位置的调整以及通过SQL查询观察Spark的job执行情况。

Spark SQL 集成Hive（一）

1. 背景

Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序
Spark SQL也可以看成一个转换器，将SQL转换为spark程序
Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。这种集成也比较简单，适合此前就使用hive内部执行是mapreduce，现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

Spark 2.4.4
centos 7.x
jdk 1.8
mysql 5.7.31

注意先创建一个允许跨ip访问的账号，否则会spark会链接补上mysql进行元数据的读写操作
注意，尽量不要使用root用户操作，实际企业生产基本不会使用root账号进行业务操作，权限太高，风险太高

2.2 集成

创建mysql账号
创建hive-site.xml文件，并将这个文件放入spark安装目录的conf目录下
启动mysql服务
启动spark 服务
启动spark sql程序，注意指定参数，第一个是–master 指定spark集群主节点；第二个是指定驱动jar包，因为链接mysql需要有驱动，当然也可以将这个mysql驱动jar包放入spark的lib目录下，但一般不

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。