从零到一:Linux环境下Spark单机与集群部署实战指南

1. 环境准备:Linux系统与基础依赖

在开始部署Spark之前,我们需要确保Linux系统已经准备好基础环境。我推荐使用Ubuntu 20.04 LTS或CentOS 7作为操作系统,这两个版本在社区支持和企业环境中都比较常见。实际操作中我发现,新装系统经常会缺少一些基础依赖,这里列出必须安装的组件:

# Ubuntu/Debian系
sudo apt-get update
sudo apt-get install -y openjdk-8-jdk scala git python3-pip ssh pdsh

# CentOS/RHEL系
sudo yum install -y java-1.8.0-openjdk scala git python3-pip openssh-clients pdsh

安装完成后,建议做三个关键检查:

  1. Java版本验证:java -version应该显示1.8.x(Spark 2.x对Java 11支持有限)
  2. SSH免密登录配置:集群部署时需要节点间无密码访问
  3. 系统防火墙设置:需要开放Spark使用的端口(默认8080、4040等)

注意:如果使用企业内网环境,可能需要先配置代理才能正常下载安装包。建议提前准备好Spark安装包(如spark-3.3.1-bin-hadoop3.tgz)到本地,避免下载中断。

2. 单机版Spark部署实战

2.1 安装与配置

将下载好的Spark安装包上传到服务器后,我习惯将其解压到/opt目录下,这样便于多用户共享使用。具体操作如下:

sudo tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt
cd /opt
sudo mv spark-3.3.1-bin-hadoop3 spark
sudo chow
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值