国科大学习生活(期末复习资料、课程大作业解析、学习文档等): 文章专栏(点击跳转)
大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转)
Spark集群搭建的三种方式详解
1、Spark集群常见运行环境
-
Local 模式:
在本地模式下,Spark 将作为一个单独的 Java 进程在本地运行,不需要启动额外的集群资源。本地模式适用于开发和调试,可以快速运行 Spark 应用程序并查看结果,而不需要配置和管理集群资源。 -
Standalone 模式:
Standalone 模式是 Spark 提供的最简单的部署方式,也是默认的部署模式。在 Standalone 模式下,Spark 自身作为一个独立的集群运行,可以通过启动 Spark Master 和 Spark Worker 进程来启动一个完整的 Spark 集群。Standalone 模式适用于开发和测试环境,也可以用于小型生产环境。 -
Apache Hadoop YARN:
YARN(Yet Another Resource Negotiator)是 Hadoop 2.x 提供的资源管理器,用于在 Hadoop 集群上管理资源和调度作业。
Spark 可以作为 YARN 上的一个应用程序运行,通过 YARN 向 Hadoop 集群申请资源并执行作业。在 YARN 上运行 Spark 可以充分利用 Hadoop 集群的资源管理和调度能力,适用于大规模生产环境。 -
Mesos & K8S(Kubernetes) 模式

-
Windows模式:
在自己学习时,每次都需要启动虚拟机,启动集群,这是一个比较繁琐的过程,并且会占大量的系统资源,导致系统执行变慢,不仅仅影响学习效果,也影响学习进度,Spark 非常暖心地提供了可以在windows系统下启动本地集群的方式,这样,在不使用虚拟机的情况下,也能学习Spark的基本使用!
2、环境搭建详细过程
1、Local模式
所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等,在IDEA中运行代码的环境我们称之为开发环境,不太一样。
解压缩文件
将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中不要包含中文或空格。
学习所有资料如下,包含spark压缩包等:
链接:https://pan.baidu.com/s/1KWVgyBWADgqV1tK1HXlbsg
提取码:uuzu
–来自百度网盘超级会员V4的分享
解压缩到/opt/module
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
重命名文件为:spark-local
cd /opt/module
mv spark-3.0.0-bin-hadoop3.2 spark-local
启动 Local 环境
进入解压缩后的路径,执行如下指令:
bin/spark-shell

启动成功后,可以输入网址进行Web UI监控页面访问
http://虚拟机地址:4040

命令行工具
在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)
sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

退出本地模式
按键Ctrl+C或输入Scala指令–》:quit
如何提交应用?
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
- –class 表示要执行程序的主类,此处可以更换为咱们自己写的应用程序
- –master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟CPU核数量
- spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,实际使用时,可以设定为咱们自己打的jar包
- 数字10表示程序的入口参数,用于设定当前应用的任务数量
2、Standalone 模式
local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用Spark自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark的Standalone 模式体现了经典的master-slave模式。
解压缩文件
准备三台虚拟机(使用之前有Hadoop环境的机器即可),分别将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到虚拟机上并解压缩在/opt/module中
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
重命名文件
cd /opt/module
mv


4771

被折叠的 条评论
为什么被折叠?



