Spark SQL 集成Hive(一)
1. 背景
- Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序
- Spark SQL也可以看成一个转换器,将SQL转换为spark程序
- Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
- 另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也比较简单,适合此前就使用hive内部执行是mapreduce,现在想要切换到spark执行的业务团队。
2. 集成步骤
2.1. 环境准备
- Spark 2.4.4
- centos 7.x
- jdk 1.8
- mysql 5.7.31
- 注意先创建一个允许跨ip访问的账号,否则会spark会链接补上mysql进行元数据的读写操作
- 注意,尽量不要使用root用户操作,实际企业生产基本不会使用root账号进行业务操作,权限太高,风险太高
2.2 集成
- 创建mysql账号
- 创建hive-site.xml文件,并将这个文件放入spark安装目录的conf目录下
- 启动mysql服务
- 启动spark 服务
- 启动spark sql程序,注意指定参数,第一个是–master 指定spark集群主节点 ;第二个是指定驱动jar包,因为链接mysql需要有驱动,当然也可以将这个mysql驱动jar包放入spark的lib目录下,但一般不

本文介绍了如何将Spark SQL与Hive进行集成,重点讨论了直接使用Spark SQL替代Hive的方法。首先,文章背景中指出Hive和Spark SQL都是SQL转换器,不同在于执行引擎。集成步骤包括环境准备,如安装Spark、CentOS、JDK和MySQL,并创建允许跨IP访问的账号。然后,详细说明了集成过程,包括创建Hive-site.xml配置文件,启动相关服务,并强调在使用`spark-sql`时需使用client模式。最后,文章提到了数据存储位置的调整以及通过SQL查询观察Spark的job执行情况。
&spm=1001.2101.3001.5002&articleId=108960672&d=1&t=3&u=a3212292460d41298b8c20d442f20057)
930

被折叠的 条评论
为什么被折叠?



