部署的网络服务

本文档介绍了为 AI Hypercomputer 集群和虚拟机部署配置的网络服务。您为 AI Hypercomputer 配置的特定网络服务取决于您为虚拟机或集群选择的部署选项。

本文档面向想要了解 AI Hypercomputer 部署的网络服务的架构师、网络工程师和开发者。本文档假定您对云网络和分布式计算概念有基本的了解。如需详细了解部署选项,请参阅虚拟机和集群创建概览

本文档详细介绍了您为以下部署选项配置的网络服务:

为默认 GKE 部署配置网络

使用默认设置创建经过 AI 优化的 GKE 集群时,您可以在集群工具包蓝图中定义网络设置。蓝图会根据您选择的机器类型而变化。例如,集群工具包蓝图会部署一个使用 A4 机器的 GKE 集群。

此蓝图会通过以下方式设置网络:

  • 使用默认 VPC:蓝图使用默认 Virtual Private Cloud 网络作为主 GKE 集群的网络。
  • 创建两个额外的 VPC:蓝图会设置两个不同的虚拟私有云网络。一个用于第二个主机网络接口卡 (NIC),另一个用于图形处理单元 (GPU) 到 GPU 的远程直接内存访问 (RDMA) 流量。通过使用此多 VPC 设置,您可以提高网络隔离度。如需了解详情,请参阅多 VPC 环境
  • 定义 IP 地址范围:蓝图为 GKE 节点设置专用 IP 地址空间,并为 Pod 和 Service 配置次要 IP 范围。GKE 使用 IP 地址别名来防止 IP 地址冲突。
  • 应用经过 RDMA 优化的网络配置文件:蓝图会将预设的 Google 托管的网络配置文件应用于用于 GPU 流量的 VPC。此配置文件会自动配置网络,以实现 RDMA 所需的高速和低延迟性能。如需了解详情,请参阅针对特定应用场景的网络配置文件
  • 自动创建 RDMA 子网:为确保最佳性能,该蓝图会自动在 RDMA VPC 内创建八个专用子网,分别对应加速器虚拟机上的八个 RDMA NIC。
  • 配置防火墙规则:蓝图设置防火墙规则,以允许集群内节点之间的所有传输控制协议 (TCP)、用户数据报协议 (UDP) 和网际控制报文协议 (ICMP) 流量。这样,节点就可以自由通信。它还会配置授权的无类别域间路由 (CIDR) 范围,以限制对 GKE 集群控制平面的访问权限,从而提高安全性。

采用自定义配置的 GKE 部署的网络配置

如果您需要比默认 Cluster Toolkit 蓝图更精细的控制权,请手动为 AI 优化型 GKE 集群配置网络对象。这种方法可让您根据工作负载的特定需求定制网络设置。

您使用的配置取决于您是否计划运行分布式 AI 工作负载:

  • 对于非分布式工作负载:创建未启用 GPUDirect RDMA 的 GKE 集群。此方法使用单个 VPC 网络进行所有通信。
  • 对于分布式工作负载:创建一个启用了 GPUDirect RDMA 的 GKE 集群。启用 GPUDirect RDMA 对于大规模实现最佳性能至关重要。此配置涉及一个多 VPC 环境,该环境可将通用流量与高带宽、低延迟的 GPU 间通信隔离开来。

如需详细了解上述两种场景下创建自定义 AI 优化型 GKE 集群的分步说明,请参阅创建自定义 AI 优化型 GKE 集群

Slurm 集群部署的网络配置

您可以使用集群工具包,通过高度可自定义和可扩展的蓝图在 Google Cloud 上部署高性能计算 (HPC)、AI 和 ML 工作负载。例如,当您使用 A4 机器类型创建 AI 优化型 Slurm 集群时。本部分将介绍 A4 蓝图中配置的网络服务,帮助您了解在创建 Slurm 集群时可以更改的网络设置。

在部署期间,Cluster Toolkit 蓝图使用 Packer 自动构建自定义操作系统 (OS) 映像。Packer 通过启动临时虚拟机并运行脚本来创建映像,以自定义启动磁盘。您可以使用启动脚本、shell 脚本或 Ansible playbook 自定义映像。然后,蓝图使用此自定义映像在 Slurm 节点上安装集群和工作负载管理所需的系统软件。

蓝图配置的网络组件如下:

  • 创建三个不同的 VPC:该蓝图会创建一个用于 Slurm 控制平面的主要 VPC、一个用于常规主机级流量的次要 VPC,以及一个用于 GPU 间通信的专用高性能 VPC。这种分离可防止管理流量干扰工作负载数据平面。如需了解详情,请参阅多 VPC 环境
  • 应用经过 RDMA 优化的网络配置文件:对于 GPU 数据平面,蓝图会应用预配置的、经过 Google 管理的、针对 RoCE 优化的网络配置文件。它会自动创建八个子网,每个子网对应一个加速器虚拟机上的 RDMA NIC。如需了解详情,请参阅特定使用场景的网络配置文件
  • 为共享存储空间预留 IP 地址范围:此蓝图设置了 Filestore 服务所需的专用 IP 地址范围。Filestore 为集群提供共享 /home 目录。
  • 提供隔离的映像构建网络:蓝图会创建一个临时 VPC,该 VPC 仅在为集群节点构建自定义虚拟机映像的过程中使用。这可为 Packer 操作提供隔离的网络环境。

如需了解更多部署选项,请参阅集群工具包文档。

Compute Engine 实例的网络

借助 Compute Engine,您可以创建独立虚拟机、批量创建虚拟机实例,以及为各种加速器优化型机器类型创建托管式实例组 (MIG)。

这些机器类型需要多 VPC 网络配置才能处理不同类型的流量。此配置可将常规主机到主机流量与高带宽 GPU 间通信隔离开来。具体的网络要求因机器类型而异。

如需详细了解机器类型的 NIC 和网络配置,请参阅查看网络带宽和 NIC 配置

如需有关如何创建这些 VPC 网络的逐步说明,请参阅创建 VPC 网络

后续步骤