第一部分:Scala编程语言
第二部分:Spark Core内核(最重要的内容)—> 概念RDD:相当于MapReduce
第三部分:Spark SQL:相当于Hive,也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD
第四部分:Spark Streaming:相当于Storm用于流式计算 - ----> 底层依赖Spark Core ----> 依赖RDD
注意:但是Spark Streaming不能做到实时性很高
第一章:Scala基础
一、Scala简介:多范式的编程语言
1、多范式:支持面向对象、支持函数式编程
2、底层依赖JVM
二、安装配置Scala、常用的开发工具
1、安装配置
版本:2.11.8版本跟Spark的版本一致(spark-2.1.0-bin-hadoop2.7.tgz)
scala-2.11.8.zip(Windows)
scala-2.11.8.tgz(Linux)
以windows为例:类似JDK的安装
(1)解压: C:\Java\scala-2.11.8
(2)设置SCALA_HOME: C:\Java\scala-2.11.8
(3)把%SCALA_HOME%/bin加入PATH路径
(4)执行: scala -version
2、常用开发工具
(1)REPL:命令行
退出: :quit
(2)IDEA: 默认没有Scala环境,安装插件SBT(需要联网)
(3)Scala IDE:就是Eclipse
三、Scala的常用数据类型
1、注意:在Scala中,任何数据都是对象。
举例:数字 1 ----> 是一个对象,就有方法
scala> 1.toString
res0: String = 1 ----> 定义了新的变量 res0,类型String
2、Scala定义变量的时候,可以不指定变量的类型,Sca

本文介绍了Spark作为大数据计算引擎的核心概念,包括RDD、Spark SQL和Spark Streaming。同时,详细阐述了Scala编程语言的基础知识,如安装配置、数据类型、函数、循环、异常处理等,为学习Spark提供了必要的Scala入门指导。

1万+

被折叠的 条评论
为什么被折叠?



