Spark----Cluster模式（standalone和Spark on Yarn）的安装配置

最新推荐文章于 2026-03-23 21:09:15 发布

原创

最新推荐文章于 2026-03-23 21:09:15 发布 · 840 阅读

本文介绍了如何安装配置Spark的Standalone集群模式和Spark on Yarn集群模式。在Standalone模式下，Spark自身管理资源调度，适合纯Spark应用，需要注意本地文件的处理。在Spark on Yarn模式中，资源管理由YARN负责，适用于已有MR应用的集群。文中还提及了Standalone模式下job的FIFO队列机制以及在不同节点上运行Spark-shell的注意事项。

Cluster模式

standalone，Yarn，Messos（国内很少用）
说明

如果现有的集群框架中存在MR的相关应用，同时相关的MR无法转换为Spark应用的，集群选型为Spark On Yarn；
如果现有的集群框架中只有Spark应用，那么建议采用spark Standalone模式；
spark可以运行在不同的计算引擎上，所以集群模式安装分不同种情况：
说明：spark的Standalone模式和Spark on Yarn占比较多。

spark的standalone集群模式安装

【standalone：由spark自己来完成资源的管理与调度】
standalone：主从架构 ---- >master worker

复制三个文件,并修改：

cp spark-env.sh.template spark-env.sh

添加以下内容，master节点是Master(主) 注意："="附近无空格：

export JAVA_HOME=/home/wyc/apps/jdk
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

cp slaves.template slaves

添加工作节点(Worker 从节点)，如下：

slave1
slave2
slave3

（注意：
需要注释或删除原内容：localhost，否则运行start-slaves.sh会提示错误，但无影响）

cp spark-defaults.conf.template spark-defaults.conf

留着备用

远程scp复制spark安装目录至其它节点：slave1、slave2和slave3，并创建软链接

scp -r ~/apps/spark-2.1.2-bin-hadoop2.7/ wyc@slave1:/home/wyc/apps/
scp -r ~/apps/spark-2.1.2-bin-hadoop2.7/ wyc@slave2:/home/wyc/apps/
scp -r ~/apps/spark-2.1.2-bin-hadoop2.7/ wyc@slave3:/home/wyc/apps/

ln -s spark-2.1.2-bin-hadoop2.7 spark    //在Slave1节点上
ln -s spark-2.1.2-bin-hadoop2.7 spark    //在Slave2节点上
ln -s spark-2.1.2-bin-hadoop2.7 spark    //在Sl