Spark集群搭建的三种方式详解

原创

已于 2024-02-28 17:24:57 修改 · 5.6k 阅读

标签

#spark #大数据 #分布式 #经验分享

于 2024-02-26 18:34:42 首次发布

国科大学习生活（期末复习资料、课程大作业解析、学习文档等）: 文章专栏（点击跳转）
大数据开发学习文档（分布式文件系统的实现，大数据生态圈学习文档等）: 文章专栏（点击跳转）

Spark集群搭建的三种方式详解

1、Spark集群常见运行环境
2、环境搭建详细过程
3、常用端口号

1、Spark集群常见运行环境

Local 模式：
在本地模式下，Spark 将作为一个单独的 Java 进程在本地运行，不需要启动额外的集群资源。本地模式适用于开发和调试，可以快速运行 Spark 应用程序并查看结果，而不需要配置和管理集群资源。
Standalone 模式：
Standalone 模式是 Spark 提供的最简单的部署方式，也是默认的部署模式。在 Standalone 模式下，Spark 自身作为一个独立的集群运行，可以通过启动 Spark Master 和 Spark Worker 进程来启动一个完整的 Spark 集群。Standalone 模式适用于开发和测试环境，也可以用于小型生产环境。
Apache Hadoop YARN：
YARN（Yet Another Resource Negotiator）是 Hadoop 2.x 提供的资源管理器，用于在 Hadoop 集群上管理资源和调度作业。
Spark 可以作为 YARN 上的一个应用程序运行，通过 YARN 向 Hadoop 集群申请资源并执行作业。在 YARN 上运行 Spark 可以充分利用 Hadoop 集群的资源管理和调度能力，适用于大规模生产环境。
Mesos & K8S（Kubernetes）模式
Windows模式：
在自己学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度，Spark 非常暖心地提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习Spark的基本使用！

2、环境搭建详细过程

1、Local模式

所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等，在IDEA中运行代码的环境我们称之为开发环境，不太一样。
解压缩文件
将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩，放置在指定位置，路径中不要包含中文或空格。
学习所有资料如下，包含spark压缩包等：

链接：https://pan.baidu.com/s/1KWVgyBWADgqV1tK1HXlbsg
提取码：uuzu
–来自百度网盘超级会员V4的分享

解压缩到/opt/module

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

重命名文件为：spark-local

cd /opt/module  
mv spark-3.0.0-bin-hadoop3.2 spark-local

启动 Local 环境
进入解压缩后的路径，执行如下指令：

bin/spark-shell

在这里插入图片描述

启动成功后，可以输入网址进行Web UI监控页面访问
http://虚拟机地址:4040

在这里插入图片描述

命令行工具
在解压缩文件夹下的data目录中，添加word.txt文件。在命令行工具中执行如下代码指令（和IDEA中代码简化版一致）

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述

退出本地模式
按键Ctrl+C或输入Scala指令–》:quit
如何提交应用？

bin/spark-submit \ 
--class org.apache.spark.examples.SparkPi \ 
--master local[2] \ 
./examples/jars/spark-examples_2.12-3.0.0.jar \ 
10

–class 表示要执行程序的主类，此处可以更换为咱们自己写的应用程序
–master local[2] 部署模式，默认为本地模式，数字表示分配的虚拟CPU核数量
spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包，实际使用时，可以设定为咱们自己打的jar包
数字10表示程序的入口参数，用于设定当前应用的任务数量

2、Standalone 模式

local 本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行，这里我们来看看只使用Spark自身节点运行的集群模式，也就是我们所谓的独立部署（Standalone）模式。Spark的Standalone 模式体现了经典的master-slave模式。

解压缩文件
准备三台虚拟机（使用之前有Hadoop环境的机器即可），分别将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到虚拟机上并解压缩在/opt/module中

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

重命名文件

cd /opt/module  
mv

最低0.47元/天解锁文章