VMware上部署Hadoop+Spark集群：手把手教你3小时完成高可用大数据平台搭建-CSDN博客

更多请点击： https://intelliparadigm.com

第一章：VMware上部署Hadoop+Spark集群：手把手教你3小时完成高可用大数据平台搭建

在VMware Workstation或vSphere环境中，通过合理规划虚拟资源与网络拓扑，可快速构建具备NameNode HA、YARN ResourceManager高可用及Spark Standalone集群模式的大数据平台。本方案基于Ubuntu 22.04 LTS系统，使用Hadoop 3.3.6与Spark 3.5.0二进制包，全程无需编译，所有节点均配置静态IP并关闭防火墙以简化调试。

环境准备与虚拟机规划

创建4台CentOS 7/Ubuntu 22.04虚拟机（最小配置：4 vCPU、8GB RAM、50GB磁盘）
分配角色：node1（NameNode + ResourceManager + Spark Master）、node2（Secondary NameNode + Spark Worker）、node3 & node4（DataNode + NodeManager + Spark Worker）
统一配置SSH免密登录，并同步各节点系统时间（timedatectl set-ntp true）

Hadoop高可用配置要点

需启用QJM（Quorum Journal Manager）实现NameNode自动故障转移。编辑 hdfs-site.xml启用HA：

<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>node1:8020</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>node1:9870</value>
</property>

关键服务启动顺序

步骤	命令	说明
1	`hdfs zkfc -formatZK`	初始化ZooKeeper故障转移协调器
2	`start-dfs.sh && start-yarn.sh`	启动HDFS与YARN集群（含HA服务）
3	`$SPARK_HOME/sbin/start-all.sh`	启动Spark Master与Worker进程

第二章：VMware环境准备与虚拟化架构设计

2.1 VMware Workstation/ESXi选型对比与资源规划理论

核心场景适配差异

Workstation 适用于开发测试与桌面虚拟化，ESXi 则面向生产级服务器虚拟化。前者依赖宿主操作系统，后者直接运行于裸机，性能损耗降低约15–20%。

资源规划关键参数

CPU：ESXi 建议预留至少2 vCPU 给管理平面；Workstation 单VM建议不超过物理核心数的80%
内存：ESXi 主机需保留4–8GB用于服务进程；Workstation 需为宿主系统预留≥4GB

典型配置对比表

维度	Workstation Pro 17	ESXi 8.0 U2
最小内存	4GB（宿主）	32GB（推荐）
网络模型	NAT/Bridged/Host-only	vSphere Distributed Switch

ESXi CPU资源预留示例

# 在ESXi Shell中查看当前CPU资源分配
esxcli hardware cpu list
# 输出含：NumCores, NumThreads, BaseClockFrequencyMHz

该命令返回物理CPU拓扑信息，是计算vCPU超分比（建议≤2:1）和NUMA节点对齐的基础依据。BaseClockFrequencyMHz用于评估单核计算密度，避免高频率小核心集群误配高负载数据库VM。

2.2 虚拟机模板创建与标准化镜像制作实践

基础镜像选择与预配置

优先选用轻量、安全、长期支持的官方镜像（如 Ubuntu 22.04 LTS 或 CentOS Stream 9），禁用非必要服务，统一时区、语言及SSH密钥策略。

自动化构建流程

# 使用 Packer 构建标准化镜像
packer build -var 'vm_name=prod-web-base' template.json

该命令调用 JSON 模板定义构建参数：`vm_name` 控制输出镜像标识；`template.json` 中嵌入 shell provisioner 执行安全加固脚本，并通过 `communicator` 配置 SSH 认证方式与超时策略。

镜像元数据规范

字段	说明	示例
os_version	操作系统版本号	22.04.3
build_timestamp	ISO 构建时间（UTC）	2024-06-15T08:30:00Z
security_patch_level	最新 CVE 修复等级	2024-Q2

2.3 网络模式选型：NAT、桥接与自定义VMnet的适用场景分析

NAT模式：轻量隔离与共享出口

适用于开发测试环境，虚拟机通过宿主机网络地址转换访问外网，无需额外IP资源。

# 查看NAT网关配置（VMware Workstation）
vmnet-natd -c /etc/vmware/vmnet8/nat.conf -f /var/log/vmware/vmnet-natd.log

该命令启动NAT服务并加载端口映射规则， -c指定NAT配置文件路径， -f启用日志记录便于调试地址转换行为。

桥接模式：真实网络身份

虚拟机直接接入物理局域网，获得独立IP，适合需被外部设备发现的服务部署。

要求物理网络支持DHCP或手动配置静态IP
存在MAC地址暴露与广播流量增加风险

VMnet自定义网络对比

模式	IP分配	外网访问	主机通信
NAT	VMnet8 DHCP	支持（经SNAT）	支持（双向）
桥接	物理网络DHCP/静态	直连	同网段可达

2.4 CPU/内存/存储IO调优：vCPU绑定、内存预留与SSD缓存配置实操

vCPU精确绑定实践

virsh vcpupin myvm 0 2-3,5  # 将vCPU 0 绑定到物理CPU核心2、3、5

该命令避免vCPU跨NUMA节点迁移，降低上下文切换开销。参数`myvm`为虚拟机名，`0`指代vCPU索引，`2-3,5`表示宿主机CPU列表。

内存预留策略

使用mem=8G内核启动参数预留物理内存
通过virsh setmem锁定最小内存值，防止ballooning回收

SSD缓存层级配置

缓存模式	适用场景	写入延迟
writeback	高吞吐数据库	低（缓存写入后即返回）
writethrough	强一致性应用	中（同步落盘后返回）

2.5 快照策略与克隆机制在集群快速复位中的工程化应用

快照生命周期管理

生产环境中需平衡一致性、存储开销与恢复时效性。推荐采用“3-2-1”分层策略：3个本地快照（每小时增量）、2个异地快照（每日全量）、1个归档快照（每周压缩加密）。

克隆调度优化

apiVersion: snapshot.storage.k8s.io/v1
kind: VolumeSnapshotClass
metadata:
  name: rapid-reset-snapclass
driver: hostpath.csi.k8s.io
deletionPolicy: Delete
parameters:
  csi.storage.k8s.io/snapshotter-secret-name: "snap-secret"
  # 启用写时重定向（CoW），避免克隆期间I/O阻塞
  cloneMode: "copy-on-write"

该配置启用内核级Copy-on-Write克隆，使新Pod可在毫秒级挂载克隆卷，原始快照保持只读锁定，保障数据一致性。

复位性能对比

方案	平均复位耗时	存储放大比
全量镜像重拉	4.2 min	1.0x
快照克隆挂载	8.3 s	1.05x

第三章：Hadoop高可用集群部署与验证

3.1 HDFS HA架构原理：QJM+ZooKeeper协同机制深度解析

核心组件职责划分

QJM（Quorum Journal Manager）：负责NameNode元数据的强一致持久化，由奇数个JournalNode组成法定人数写入
ZooKeeper：仅管理Active/Standby状态选举与故障探测，不参与日志同步

故障切换关键流程

  → ZKFC检测Active NN心跳超时 → 触发ZooKeeper临时节点删除 → 新选主NN执行
 fenceOldActive → 从JNs拉取最新edits → 加载FSImage完成元数据对齐 → 切换为Active 

JournalNode配置示例

<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/data/jn/cluster1</value>
  <!-- 每个JN独立存储目录，避免单点IO瓶颈 -->
</property>

该配置定义JN本地Edits日志落盘路径，需确保磁盘具备低延迟与高耐久性；多JN间通过Paxos变种协议达成写多数（quorum write）一致性。

3.2 基于Ambari或手动方式部署NameNode/SecondaryNameNode/JournalNode实战

Ambari自动化部署关键步骤

Ambari通过服务向导自动分发并启动核心组件，需预先配置HA模式与ZooKeeper集成。部署前确保所有节点时间同步、SSH免密互通，并在Ambari UI中启用“High Availability”选项。

手动部署JournalNode集群

# 在三台专用节点执行（如 node1,node2,node3）
sudo -u hdfs hdfs journalnode
sudo -u hdfs hdfs --daemon start journalnode

该命令启动独立JournalNode进程，用于存储EditLog的共享副本；每个JournalNode监听端口8485，默认持久化路径为 /var/lib/hadoop-hdfs/journal，需确保该目录具备读写权限且磁盘充足。

组件角色与端口对照表

组件	默认端口	关键配置项
NameNode	8020（RPC）, 9870（WebUI）	dfs.namenode.rpc-address, dfs.namenode.http-address
JournalNode	8485	dfs.journalnode.http-address, dfs.journalnode.rpc-address

3.3 YARN ResourceManager HA配置与NodeManager健康检查脚本编写

ResourceManager高可用核心配置

启用ZooKeeper作为状态存储，需在 yarn-site.xml 中设置：

<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>yarn-cluster</value>
</property>

该配置激活RM主备切换能力； yarn.resourcemanager.cluster-id 确保ZK路径唯一性，避免多集群冲突。

NodeManager健康检查脚本

以下Bash脚本定期校验本地磁盘与内存使用率：

#!/bin/bash
df -h / | awk 'NR==2 {print $5}' | sed 's/%//'
free -m | awk 'NR==2 {printf "%.0f", $3*100/$2}'

第一行提取根分区使用率，第二行计算内存使用百分比，结果供YARN健康报告调用。

关键参数对照表

参数名	作用	推荐阈值
yarn.nodemanager.disk-health-checker.min-healthy-disks	健康磁盘最小比例	0.75
yarn.nodemanager.resource.memory-mb	NM可分配内存上限	根据物理内存动态设定

第四章：Spark on YARN集成与性能调优

4.1 Spark 3.x与Hadoop 3.x版本兼容性验证及依赖包冲突解决

兼容性矩阵验证

Spark 版本	Hadoop 支持版本	关键变更
3.3.0+	3.3.4+（推荐）	移除对 Hadoop 2.x 的默认 shaded jar 支持
3.2.x	3.2.0–3.3.3	需显式指定 hadoop-client 依赖范围

依赖冲突典型场景

Spark 自带的 `hadoop-client:3.3.1` 与集群 Hadoop 3.3.4 中的 `hadoop-common` 类签名不一致
Guava 版本错配（Spark 3.3 默认 Guava 32.0-jre，Hadoop 3.3.4 使用 31.1-jre）

构建时依赖覆盖策略

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-sql_2.12</artifactId>
  <version>3.3.2</version>
  <exclusions>
    <exclusion>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
    </exclusion>
  </exclusions>
</dependency>

该配置强制剥离 Spark 内置 Hadoop 客户端，由用户统一引入 ` `，避免 ClassLoader 加载歧义。`exclusions` 确保运行时仅加载集群侧 Hadoop API，保障 FileSystem 和 Kerberos 认证一致性。

4.2 Spark History Server高可用部署与日志聚合路径统一配置

核心配置一致性保障

Spark History Server 的高可用依赖于共享存储与统一日志路径。所有 Spark 应用必须将事件日志写入同一 HDFS 路径，并启用 `spark.history.fs.logDirectory` 统一指向：

<property>
  <name>spark.history.fs.logDirectory</name>
  <value>hdfs://ha-nn/user/spark/applicationHistory</value>
</property>

该配置确保多个 History Server 实例可并发读取同一日志源，避免因路径分散导致历史记录缺失。

HA 部署关键步骤

部署至少两个 History Server 实例，分别运行在不同节点
通过反向代理（如 Nginx）实现请求负载与故障自动切换
启用 ZooKeeper 协调服务状态（需配置 spark.history.store.type=ROCKSDB 并挂载共享 PV）

日志聚合路径校验表

配置项	推荐值	说明
`spark.eventLog.enabled`	`true`	必须开启，否则无事件日志可聚合
`spark.eventLog.dir`	`hdfs://ha-nn/user/spark/applicationHistory`	须与 History Server 的 `logDirectory` 完全一致

4.3 动态资源分配（Dynamic Allocation）与Shuffle服务（External Shuffle Service）启用指南

核心配置联动

动态资源分配依赖外部 Shuffle 服务持久化中间数据，避免 Executor 被回收后 Shuffle 文件丢失。二者必须协同启用：

<!-- spark-defaults.conf -->
spark.dynamicAllocation.enabled true
spark.shuffle.service.enabled true
spark.dynamicAllocation.shuffleTracking.enabled true

`shuffleTracking.enabled` 启用基于 Shuffle 的生命周期跟踪，替代仅依赖心跳的粗粒度回收策略，提升资源释放精度。

关键参数对照表

参数	作用	推荐值
spark.dynamicAllocation.minExecutors	最小保有 Executor 数	2
spark.shuffle.service.port	External Shuffle Service 监听端口	7337

部署依赖

需在每个 Worker 节点独立启动 spark-shuffle-service 进程
Driver 必须通过 spark.shuffle.service.enabled=true 显式声明信任该服务

4.4 基于YARN队列的Spark作业优先级调度与资源隔离实践

YARN队列资源配置示例

<property>
  <name>yarn.scheduler.capacity.root.production.capacity</name>
  <value>60</value>
  <description>生产队列基础容量（%）</description>
</property>
<property>
  <name>yarn.scheduler.capacity.root.production.maximum-capacity</name>
  <value>85</value>
  <description>生产队列弹性上限</description>
</property>

该配置确保production队列始终保有60%基线资源，突发负载下可弹性扩展至85%，避免关键作业因资源争抢而延迟。

Spark提交时绑定队列与优先级

--queue production：指定YARN队列名称
--conf spark.yarn.priority=10：设置相对优先级（值越大越优先）

多队列资源隔离效果对比

队列名	最小容量	最大容量	用户限制
production	60%	85%	200%
development	15%	30%	100%

第五章：总结与展望

在生产环境中，微服务架构的可观测性已从“可选能力”演变为系统稳定性的核心支柱。某电商中台团队通过将 OpenTelemetry SDK 集成至 Go 微服务，并统一接入 Prometheus + Grafana + Loki 栈，将平均故障定位时间（MTTD）从 47 分钟压缩至 6 分钟。

关键实践代码片段

// 初始化 OTel TracerProvider，启用 Jaeger Exporter
tp := oteltrace.NewTracerProvider(
	oteltrace.WithBatcher(
		jaeger.New(jaeger.WithCollectorEndpoint(
			jaeger.WithEndpoint("http://jaeger-collector:14268/api/traces"),
		)),
	),
	oteltrace.WithResource(resource.MustNewSchema(
		semconv.ServiceNameKey.String("order-service"),
		semconv.ServiceVersionKey.String("v2.3.1"),
	)),
)

可观测性组件对比

组件	采样策略	延迟敏感度	典型部署方式
OpenTelemetry Collector	概率采样（1/1000）+ 关键路径全采样	≤5ms P99 处理延迟	DaemonSet + Sidecar 混合模式
Prometheus	无采样（指标聚合后存储）	依赖 scrape interval（默认15s）	StatefulSet + Thanos 对象存储后端