大数据学习23：Spark:大数据的计算引擎(Scala开发环境安装)

最新推荐文章于 2024-08-13 09:15:08 发布

原创

最新推荐文章于 2024-08-13 09:15:08 发布 · 315 阅读

收录于

本文介绍了Spark作为大数据计算引擎的核心概念，包括RDD、Spark SQL和Spark Streaming。同时，详细阐述了Scala编程语言的基础知识，如安装配置、数据类型、函数、循环、异常处理等，为学习Spark提供了必要的Scala入门指导。

第一部分：Scala编程语言
第二部分：Spark Core内核（最重要的内容）—> 概念RDD：相当于MapReduce
第三部分：Spark SQL：相当于Hive，也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD
第四部分：Spark Streaming：相当于Storm用于流式计算 - ----> 底层依赖Spark Core ----> 依赖RDD
注意：但是Spark Streaming不能做到实时性很高

第一章：Scala基础

一、Scala简介：多范式的编程语言

1、多范式：支持面向对象、支持函数式编程
2、底层依赖JVM

二、安装配置Scala、常用的开发工具

1、安装配置
	版本：2.11.8版本跟Spark的版本一致（spark-2.1.0-bin-hadoop2.7.tgz）
	      scala-2.11.8.zip（Windows）
	      scala-2.11.8.tgz（Linux）
		  
	以windows为例：类似JDK的安装
		（1）解压: C:\Java\scala-2.11.8
		（2）设置SCALA_HOME: C:\Java\scala-2.11.8
		（3）把%SCALA_HOME%/bin加入PATH路径
		（4）执行: scala -version
		
2、常用开发工具
	（1）REPL：命令行
			   退出： :quit
	
	（2）IDEA: 默认没有Scala环境，安装插件SBT（需要联网）
	
	（3）Scala IDE：就是Eclipse

三、Scala的常用数据类型

1、注意：在Scala中，任何数据都是对象。
	举例：数字 1 ----> 是一个对象，就有方法
	scala> 1.toString
	res0: String = 1     ----> 定义了新的变量 res0，类型String
	
2、Scala定义变量的时候，可以不指定变量的类型，Sca

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44804248

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据从入门到实战 - Spark的安装与使用

小啊呜的博客

01-14

1万+

大数据从入门到实战 - Spark的安装与使用一、关于此次实践 1、实战简介 2、全部任务二、实践详解 1、第1关：Scala语言开发环境的部署 2、第2关：安装与配置Spark开发环境 叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！

参与评论您还未登录，请先登录后发表或查看评论

Spark大数据处理学习笔记1.1 搭建Scala开发环境

Pythonwudud的博客

06-06

504

Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

Spark大数据实战之四：Scala安装

小海鲜的博客

10-01

410

1、下载解压scala压缩包去官网https://www.scala-lang.org/download/2.10.4.html下载 scala与jdk版本是相匹配的，如果jdk版本过低，解压配置完环境变量后，测试scala -version可能会出现如下问题：意思是说jdk版本过低，需要更换更高版本或者下载较低版本的scala 下载完毕后拖拽到lala用户目录下，执行如下语句进行解压 tar -zvxf scala-2.10.4.tgz 2、配置系统文件执行如下语句，打开.bash_prof

Spark零基础入门实战（二）Scala集合之数组

分享大数据、人工智能领域原创文章

12-08

797

Scala集合分为可变集合和不可变集合。可变集合可以对其中的元素进行修改、添加、移除；而不可变集合永远不会改变，但是仍然可以模拟添加、移除或更新操作。这些操作都会返回一个新的集合，原集合的内容不发生改变。Scala中的数组分为定长数组和变长数组，定长数组初始化后不可对数组长度进行修改，而变长数组则可以修改。定义数组的同时可以初始化数据，代码如下：也可以在定义时指定数组长度，稍后对其添加数据，代码如下：（2）数组遍历可以使用for循环对数组进行遍历，输出数组所有的元素，代码如下：（3）常

大数据-80 Spark 从 MapReduce 到 Spark：大数据处理引擎的三代演进全景解析

谢谢你的喜欢我们一起无限进步

08-13

6005

Spark 是继 MapReduce 和 Hive 之后的新一代大数据处理引擎，凭借内存计算、DAG 执行引擎、统一的生态系统和卓越的兼容性，成为当前主流的大数据分析平台。相比传统 Hadoop MapReduce，Spark 在性能、易用性和生态上都有显著提升，支持批处理、流处理、交互式分析及机器学习等场景。其模块化设计包括 Spark Core、Spark SQL、Streaming、MLlib 和 GraphX 等，可灵活部署在 YARN、Mesos、K8s 或独立集群上。

数据研发学习笔记4.8：大数据之Spark

weixin_41961559的博客

05-17

985

文章目录1 Spark概述1.1 Spark简介1.2 Scala简介1.3 Spark与Hadoop的比较2 Spark生态系统3 Spark运行架构3.1 基本概念3.2 架构设计3.3 Spark运行基本流程3.4 RDD运行原理4 Spark SQL5 Spark的部署和应用方式5.1 Spark三种部署方式5.2 从Hadoop+Storm架构转向Spark架构5.3 Hadoop和Spark的统一部署6 Spark编程实践6.1 Spark安装6.2 启动Spark Shell6.3 Spark

大数据云计算学习路线分析(纯属个人看法和观点)

热门推荐

qq_37187606的博客

06-12

1万+

1.Linux基础和Hadoop分布式架构计算处理模块学完此阶段可掌握的核心能力：熟练使用Linux，熟练安装Linux上的软件，了解熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、高可靠的服务架构；学完此阶段可解决的现实问题：搭建负载均衡、高可靠的服务器集群，可以增大网站的并发访问量，保证服务不间断地对外服务；学完此阶段可拥有的市场价值：具备初级程序员必要具备的Linux服务器运维能力。2...

Hadoop学习笔记(8)-Spark介绍以及环境搭建

BeiXi's Blog

05-28

963

Spark最初由美国加州伯克利大学(UC Berkeley)的AMP ( Algorithm, Machine and People)实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)

为什么选择Scala，它在大数据处理方面有何优势？

吃果冻不吐果冻皮

05-30

1万+

近年来，关于大数据讨论已然是热火朝天，虽不说是家喻户晓，那至少对于业界来说也是引起了轩然大波。作为学生党的我，最近也在研究关于大数据的东东。作为一个技术迷，总是会想尝试一些新鲜的东西。前一段时间学习了Hadoop之后，又想看看Spark是什么东东。那么在这里有必要八卦一下Spark了。 Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼

Scala学习进击Spark(二):Scala入门

wangzili1995的博客

10-10

300

一：val vs var val ：为一个值，不能重新赋值与java中 final修饰的变量相同使用方法： val 值名称:类型 = xxx （：类型可以省略） var 为一个变量 var 值名称:类型 = xxx 日常使用中优先使用val 二：Scala基本数据类型 Byte/Char Short/Int/Long/Float/Double Boolean Scala能自动推导...

快速学习-scala数据类型介绍

逍遥云恋

02-20

617

scala数据类型介绍 Scala 与 Java有着相同的数据类型，在Scala中数据类型都是对象，也就是说scala没有java中的原生类型 Scala数据类型分为两大类 AnyVal(值类型) 和 AnyRef(引用类型)，注意：不管是AnyVal还是AnyRef 都是对象。 var num1 : Int = 10 println("num1" + num1) var char1 : C...

Scala 计算算子

xiao_qiqiqi的博客

02-18

837

Scala 计算算子集合变换-算子 Scala集合提供了丰富的计算算子，用于实现集合/数组的计算，这些计算子一般针对于List、Array、Set、Map、Range、Vector、Iterator等都可以适用。排序 sorted def sorted[B >: String](implicit ord: scala.math.Ordering[B]): List[String] ...

SPARK (计算引擎）介绍

HFDY的博客

10-12

1787

SPARK Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，Spark是加州大学伯克利分校的AMP实验室开源的类hadoop MapReducec的通用并行框架，Spark具有 Hadoop MapReduce具有的优点，但不同于MapReduce的是——job中间输出可以保存在内存中，从而不在需要读写HDFS，因此Spark更加适合机器学习和...

scala学习

zhanweichun的专栏

05-08

189

http://ofps.oreilly.com/titles/9780596155957/

Spark学习（一）——Scala基础学习

livan1234的博客

07-10

1447

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。我的公众号为：livandata scala是一门多范式编程语言，集成了面向对象编程和函数式编程等多种特性。 s...

易语言源码易语言PE查看器