【Docker Swarm集群管理入门】：掌握5个核心命令轻松玩转容器编排

最新推荐文章于 2026-05-12 09:37:43 发布

原创最新推荐文章于 2026-05-12 09:37:43 发布 · 932 阅读

本内容遵循CC 4.0 BY-SA版权协议

第一章：Docker Swarm集群管理入门

Docker Swarm 是 Docker 原生的集群管理和编排工具，允许用户将多个 Docker 主机组成一个虚拟的“Swarm”集群，并统一调度容器化应用。通过简单的命令即可完成节点管理、服务部署与负载均衡，非常适合中小型生产环境快速搭建高可用服务架构。

初始化Swarm集群

在主控节点上执行以下命令以初始化 Swarm 集群：

# 初始化Swarm，指定本机作为管理节点
docker swarm init --advertise-addr <MANAGER-IP>

# 输出示例会提供加入Worker节点的命令
# docker swarm join --token <token> <manager-ip>:2377

该命令会启动 Swarm 模式，并生成用于添加工作节点的安全令牌。其他主机可通过 docker swarm join 命令加入集群。

节点角色与管理

Swarm 集群中的节点分为两类：

Manager 节点：负责集群状态管理、任务调度和API入口
Worker 节点：仅执行由 Manager 分配的容器任务

可通过以下命令查看当前节点状态：

docker node ls

部署服务示例

使用 docker service create 可部署可扩展的服务。例如，部署一个 Nginx 服务并暴露端口：

docker service create \
  --name my-nginx \
  --replicas 3 \
  --publish published=80,target=80 \
  nginx:latest

上述命令创建名为 my-nginx 的服务，启动 3 个副本，将宿主机的 80 端口映射到容器的 80 端口。

服务状态监控

可通过表格形式展示服务运行情况：

服务名称	副本数	镜像	端口映射
my-nginx	3/3	nginx:latest	80:80

Swarm 自动处理故障恢复与负载均衡，确保服务始终处于期望状态。

第二章：Swarm集群的搭建与初始化

2.1 理解Swarm架构：Manager与Worker节点角色解析

在Docker Swarm集群中，节点被明确划分为Manager和Worker两种角色，各自承担不同的职责。Manager节点负责集群的管理与调度决策，包括服务部署、任务分配和集群状态维护。

Manager节点核心功能

处理集群管理任务，如节点加入、服务创建
执行调度逻辑，决定Worker节点上运行的任务
维护Raft一致性日志，确保高可用性

Worker节点职责

Worker节点仅负责执行由Manager分配的任务，并报告任务状态。它们不参与决策过程，专注于容器化应用的运行。

docker node ls
# 输出示例：
# ID        HOSTNAME    ROLE     AVAILABILITY   STATUS
# abc123    manager-1   Manager  Active         Ready
# def456    worker-1    Worker   Active         Ready

上述命令用于查看节点角色分布。ROLE列清晰标识Manager与Worker，是运维排查的基础工具。Manager通过Raft协议实现多节点间的状态同步，通常建议部署奇数个Manager节点以保障容错能力。

2.2 初始化Swarm集群并验证节点状态

在完成Docker环境准备后，需初始化Swarm模式以构建集群基础。执行以下命令启动管理节点：

docker swarm init --advertise-addr 192.168.1.10

该命令将当前主机设为Swarm管理节点，--advertise-addr 指定对外通信的IP地址，确保其他节点可连接。执行成功后，系统输出包含加入令牌的提示信息，用于后续工作节点接入。

节点角色与状态查看

使用如下命令查看集群节点状态：

docker node ls

返回结果包含节点ID、主机名、角色（Manager/Worker）及可达性状态。正常状态下，管理节点显示为“Ready”，角色为“Leader”或“Reachable”。

字段	说明
HOSTNAME	节点主机名称
STATUS	可达状态（Ready/Down）
AVAILABILITY	调度策略（Active/Drain）

2.3 加入Worker节点：实现集群横向扩展

在Kubernetes集群中，Worker节点的加入是实现系统横向扩展的关键步骤。新节点通过kubeadm join命令接入控制平面，自动完成证书分发与网络配置。

节点注册流程

执行以下命令将Worker节点注册至集群：

kubeadm join 192.168.1.100:6443 --token abcdef.1234567890abcdef \
    --discovery-token-ca-cert-hash sha256:1a2b3c4d5e6f...

该命令中，IP地址指向API Server，token用于身份验证，CA哈希确保安全发现。节点成功加入后，kubelet启动并上报状态。

资源调度准备

节点需配置CNI插件以连通Pod网络。常用Calico配置如下：

部署DaemonSet实现每个节点的网络代理
设置BGP路由通告Pod子网
启用NetworkPolicy实现安全隔离

一旦网络就绪，kube-scheduler即可将Pod调度至新节点，分担负载压力。

2.4 查看集群节点信息与网络配置实践

在Kubernetes集群运维中，掌握节点状态与网络拓扑是保障服务稳定的基础。通过命令行工具可快速获取节点基本信息。

查看节点基本信息

使用kubectl get nodes命令可列出所有集群节点及其状态：

kubectl get nodes -o wide

输出包含节点名称、角色、版本、操作系统、内部IP和容器运行时等信息。添加-o wide参数可扩展显示IP地址与端口范围，便于网络排查。

节点详细信息查询

进一步获取特定节点的详细配置：

kubectl describe node <node-name>

该命令展示资源容量（CPU、内存、Pod数量）、分配情况、污点（Taints）与标签（Labels），以及网络插件分配的Pod CIDR。

网络配置验证

检查节点间网络连通性与CNI插件配置一致性，确保Pod跨节点通信正常。可通过以下表格核对关键网络参数：

节点名称	Pod CIDR	Internal IP	CNI 插件
node-1	10.244.1.0/24	192.168.1.10	Calico
node-2	10.244.2.0/24	192.168.1.11	Calico

2.5 安全引导令牌管理与节点安全退出

引导令牌的生成与分发

在集群初始化阶段，安全引导令牌用于验证新节点的合法性。令牌通常由控制平面生成，具备时效性和单次使用特性。

apiVersion: bootstrap.cluster.x-k8s.io/v1beta1
kind: Token
ttl: 300s
usages:
  - node-registration
  - authentication

该配置定义了一个有效期为5分钟的引导令牌，仅可用于节点注册和身份认证，防止长期暴露带来的安全风险。

节点安全退出机制

当节点需下线时，应主动向API Server发送注销请求，并清除本地凭证。

通知控制面节点即将退出
撤销该节点的TLS证书和访问令牌
清理网络策略与服务注册信息

此流程确保集群状态一致性，避免僵尸节点引发安全隐患。

第三章：服务部署与生命周期管理

3.1 使用service创建容器化应用服务

在 Kubernetes 中，Service 是一种抽象，用于暴露运行在一组 Pod 上的应用程序。通过定义 Service，可以实现稳定的网络访问端点，即使后端 Pod 发生变化。

创建一个基本的 Service

apiVersion: v1
kind: Service
metadata:
  name: my-app-service
spec:
  selector:
    app: my-app
  ports:
    - protocol: TCP
      port: 80
      targetPort: 8080
  type: ClusterIP

该配置将集群内部请求转发到标签为 app=my-app 的 Pod。其中 port 是服务暴露的端口，targetPort 是 Pod 实际监听的端口。

Service 类型对比

类型	访问范围	典型用途
ClusterIP	集群内部	内部服务通信
NodePort	外部可通过节点 IP 访问	开发测试环境暴露服务
LoadBalancer	云厂商提供的负载均衡器	生产环境公网访问

3.2 更新与滚动升级服务实现零停机运维

在现代微服务架构中，零停机部署是保障系统高可用的关键能力。滚动升级通过逐步替换旧实例、引入新版本实例，确保服务持续对外提供响应。

滚动策略配置示例

apiVersion: apps/v1
kind: Deployment
metadata:
  name: app-deployment
spec:
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxUnavailable: 1
      maxSurge: 1

上述配置表示每次升级时最多停止一个实例，同时最多创建一个新实例，确保集群始终有足够的运行副本处理请求。maxUnavailable 控制服务容量下限，maxSurge 管理资源上限，二者协同实现平滑过渡。

健康检查与流量切换

就绪探针（readinessProbe）决定何时将 Pod 加入负载均衡池
存活探针（livenessProbe）检测容器是否需重启
通过 Service 的 selector 动态路由流量至健康的 Pod

3.3 服务删除与资源清理最佳实践

在微服务架构中，服务删除不仅仅是终止进程，更需系统性地释放关联资源，避免“资源泄漏”引发系统性能下降或故障。

资源清理检查清单

停止服务实例并从注册中心注销
释放数据库连接与缓存键值
删除临时文件与日志卷
解绑负载均衡器与DNS记录

优雅停机代码示例

func gracefulShutdown(server *http.Server, timeout time.Duration) {
    c := make(chan os.Signal, 1)
    signal.Notify(c, os.Interrupt, syscall.SIGTERM)

    go func() {
        <-c
        ctx, cancel := context.WithTimeout(context.Background(), timeout)
        defer cancel()
        server.Shutdown(ctx) // 触发平滑关闭
    }()
}

上述代码通过监听系统信号，触发HTTP服务器的Shutdown()方法，在指定超时内完成现有请求处理，避免强制中断连接。

常见资源依赖对照表

资源类型	清理方式
云主机实例	调用云平台API释放
Kubernetes Pod	执行kubectl delete deployment
消息队列绑定	取消订阅并删除专用队列

第四章：服务发现与负载均衡实战

4.1 内置DNS机制实现服务间通信

在现代微服务架构中，服务发现是实现服务间通信的核心环节。Kubernetes 通过内置的 DNS 机制，为每个服务分配可解析的域名，使得服务调用方可以通过名称直接访问目标服务。

服务域名解析规则

集群内服务默认遵循如下 DNS 命名模式：`..svc.cluster.local`。例如，名为 `user-service` 的服务位于 `default` 命名空间时，其完整域名为：

user-service.default.svc.cluster.local

该机制极大简化了服务定位，开发者无需关心后端 Pod 的 IP 变动。

DNS 解析流程示例

当 Pod 发起对 `order-service.payment.svc.cluster.local` 的请求时，kube-dns（或 CoreDNS）会自动解析该域名对应的服务 ClusterIP，并通过 kube-proxy 转发至后端 Pod 实例。

DNS 查询由 Pod 所在节点的 kubelet 配置推动
CoreDNS 作为集群默认 DNS 服务器监听 53 端口
解析结果缓存于本地以提升性能

4.2 负载均衡原理剖析与流量分发验证

负载均衡的核心在于将客户端请求合理分发至后端多个服务节点，提升系统可用性与横向扩展能力。常见的分发策略包括轮询、加权轮询、IP哈希等。

常见负载均衡算法示例

轮询（Round Robin）：依次将请求分配给每个服务器
加权轮询：根据服务器性能分配不同权重
最少连接：将请求发送到当前连接数最少的节点

Nginx 配置示例


upstream backend {
    server 192.168.1.10:8080 weight=3;
    server 192.168.1.11:8080 weight=1;
    server 192.168.1.12:8080 backup;
}
server {
    location / {
        proxy_pass http://backend;
    }
}

上述配置定义了一个加权负载均衡组，前两台为主节点，权重分别为3和1，第三台为备份节点，仅在主节点失效时启用。proxy_pass 指令将请求转发至 upstream 组，实现流量分发。

4.3 发布端口与外部访问配置技巧

在容器化部署中，正确发布端口是实现服务对外可达的关键步骤。通过合理配置端口映射，可确保应用在安全的前提下被外部网络访问。

端口映射基础语法

使用 Docker 运行容器时，通过 -p 参数将容器内部端口映射到主机：

docker run -d -p 8080:80 nginx

该命令将主机的 8080 端口映射到容器的 80 端口。格式为 主机端口:容器端口，支持 TCP/UDP 协议指定，如 8080:80/udp。

常用端口配置策略

静态映射：固定主机端口，适用于明确的服务暴露
动态分配：仅指定容器端口，由系统自动分配主机端口
绑定特定接口：如 127.0.0.1:8080:80，限制仅本地访问

多端口与范围映射

对于微服务或多组件应用，可批量映射端口范围：

docker run -d -p 3000-3005:3000-3005 myapp

此方式提升部署效率，适用于 API 网关或前端开发服务器等场景。

4.4 使用路由网格（Routing Mesh）暴露服务

Docker Swarm 的路由网格功能允许外部访问运行在集群任意节点上的服务，而无需关心服务实际运行在哪一个节点。只要通过发布端口，Swarm 会自动将请求路由到正确的容器实例。

发布服务端口

使用 docker service create 命令时，通过 -p 参数暴露服务：

docker service create -p 8080:80 --name web nginx

该命令将集群的 8080 端口映射到服务容器的 80 端口。无论请求发送到哪个节点，Swarm 内部的路由网格都会将流量转发至运行着 nginx 容器的节点。

路由机制说明

所有集群节点监听发布的端口
入口请求由 IPVS 负载均衡器分发到可用任务
即使目标节点未运行服务实例，请求仍会被透明转发

此机制提升了服务的高可用性与访问便捷性，是构建生产级 Swarm 应用的关键特性之一。

第五章：总结与进阶学习建议

构建持续学习的技术路径

技术演进迅速，掌握基础后应主动拓展知识边界。例如，在Go语言开发中，理解并发模型是关键。以下代码展示了如何使用 context 控制多个 goroutine 的取消操作：


package main

import (
    "context"
    "fmt"
    "time"
)

func worker(ctx context.Context, id int) {
    for {
        select {
        case <-ctx.Done():
            fmt.Printf("Worker %d stopped\n", id)
            return
        default:
            fmt.Printf("Worker %d working...\n", id)
            time.Sleep(500 * time.Millisecond)
        }
    }
}

func main() {
    ctx, cancel := context.WithTimeout(context.Background(), 2*time.Second)
    defer cancel()

    for i := 0; i < 3; i++ {
        go worker(ctx, i)
    }

    time.Sleep(3 * time.Second) // 等待所有 worker 结束
}