1. 环境准备:Linux系统与基础依赖
在开始部署Spark之前,我们需要确保Linux系统已经准备好基础环境。我推荐使用Ubuntu 20.04 LTS或CentOS 7作为操作系统,这两个版本在社区支持和企业环境中都比较常见。实际操作中我发现,新装系统经常会缺少一些基础依赖,这里列出必须安装的组件:
# Ubuntu/Debian系
sudo apt-get update
sudo apt-get install -y openjdk-8-jdk scala git python3-pip ssh pdsh
# CentOS/RHEL系
sudo yum install -y java-1.8.0-openjdk scala git python3-pip openssh-clients pdsh
安装完成后,建议做三个关键检查:
- Java版本验证:
java -version应该显示1.8.x(Spark 2.x对Java 11支持有限) - SSH免密登录配置:集群部署时需要节点间无密码访问
- 系统防火墙设置:需要开放Spark使用的端口(默认8080、4040等)
注意:如果使用企业内网环境,可能需要先配置代理才能正常下载安装包。建议提前准备好Spark安装包(如spark-3.3.1-bin-hadoop3.tgz)到本地,避免下载中断。
2. 单机版Spark部署实战
2.1 安装与配置
将下载好的Spark安装包上传到服务器后,我习惯将其解压到/opt目录下,这样便于多用户共享使用。具体操作如下:
sudo tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt
cd /opt
sudo mv spark-3.3.1-bin-hadoop3 spark
sudo chow


3835

被折叠的 条评论
为什么被折叠?



