版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
传送门:大数据系列文章目录
官方网址:http://spark.apache.org/、 http://spark.apache.org/sql/

先来个介绍
Spark 2.0开始,应用程序入口为SparkSession,加载不同数据源的数据,封装到DataFrame/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。

SparkSession 应用入口
SparkSession:这是一个新入口,取代了原本的SQLContext与HiveContext。 对于DataFrameAPI的用户来说, Spark常见的混乱源头来自于使用哪个“context”。现在使用SparkSession,它作为单个入口可以兼容两者,注意原本的SQLContext与HiveContext仍然保留,以支持向下兼容。
文档: http://spark.apache.org/docs/2.4.5/sql-getting-started.html#starting-point-sparksession
1)SparkSession在SparkSQL模块中,添加MAVEN依赖
<dependency
订阅专栏 解锁全文
580

被折叠的 条评论
为什么被折叠?



