本文档介绍了在 AI Hypercomputer 上获取和使用计算资源的不同方式,称为“使用选项” 。选择最符合您的工作负载、时长和费用需求的选项。
每个使用选项都指定了以下内容:
您如何访问容量以创建虚拟机或集群。
底层 预配模型, 该模型决定了虚拟机的可获取性、生命周期和价格。
使用选项比较
下表总结了使用选项之间的主要差异:
| 使用选项 | AI Hypercomputer 中的未来预留 | 最长 90 天的未来预留(日历模式) | 灵活启动 | Spot |
|---|---|---|---|---|
| 支持的机器 | A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High | 具有 8 个 GPU 的 A4、A3 Ultra、A3 Mega 或 A3 High | A4X Max 和 A4X 以外的任何 GPU 机器 | A4X Max 和 A4X 以外的 任何 GPU 机器 |
| 生命周期 | 无限制 | 最长 90 天 | 最长 7 天 | 无限制(但可能会被抢占) |
| 抢占式 | ||||
| 容量保证 | 非常高 。如果 Google Cloud 批准了您的预留请求,则 您可以极高地保证 Compute Engine 会预配您请求的容量。 | 非常高 。如果 Google Cloud 批准了您的预留请求,则 您可以极高地保证 Compute Engine 会预配您请求的容量。 | 尽力而为 。Compute Engine 会尽力尝试安排预配您请求的容量。 | 尽力而为 。Compute Engine 会尽力尝试预配您请求的容量。 |
| Quota | Google Cloud 在提供容量之前自动增加配额。 | 不消耗配额。 | 消耗抢占式配额。 | 消耗抢占式配额。 |
| 价格 |
|
|
|
|
| 资源分配 | 密集 | 密集 | 尽力而为地密集( 紧凑政策或 工作负载政策;可选) | 标准 (紧凑 政策 可选) |
| 预配模型 | 受预留约束 | 受预留约束 | 灵活启动 | Spot |
| 创建方法 |
如需创建虚拟机,您必须执行以下操作:
|
如需创建虚拟机,您必须执行以下操作:
|
当您请求创建灵活启动虚拟机时,Compute Engine 会根据可用性安排虚拟机创建。当容量可用时, Compute Engine 会预配灵活启动虚拟机。如需创建 灵活启动虚拟机,请使用 部署选项概览中介绍的任何方法。 |
您可以使用 部署选项概览中介绍的任何方法立即创建虚拟机。 |
选择使用选项
使用以下流程图选择最符合您的工作负载的使用选项:

上图中的问题如下:
您是否需要超过 90 天的容量?
是:请参阅 在 AI Hypercomputer 中使用未来预留。
否:请前往第 2 题。
您是否需要预留容量?
是:请参阅在日历模式下使用未来预留。
否:请前往第 3 题。
您的工作负载是否具有容错能力?
在 AI Hypercomputer 中使用未来预留
如需运行需要密集分配资源的长时间运行的大规模分布式工作负载, 您可以申请在未来特定时间段使用计算资源。在该时间段内,您可以独占访问 预留的资源,并且可以使用这些资源创建虚拟机或 集群。在预留期结束时,Compute Engine 会执行以下操作:
- Compute Engine 会删除预留。
- 根据您为虚拟机指定的 终止操作 ,Compute Engine 会停止或删除使用该 预留的所有虚拟机。
适合 AI Hypercomputer 中未来预留的工作负载
未来预留非常适合以下工作负载:
预训练基础模型
多主机基础模型推断
AI Hypercomputer 中未来预留的主要特征
未来预留具有以下特征:
-
您可以预留 A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)机器类型。 机器会密集分配,以最大限度地减少网络延迟。
-
您可以从未来日期开始预留任意数量的虚拟机,预留时长不限。您可以使用 预留的资源创建和运行虚拟机,直至预留期结束为止。如果您预留资源的时间为一年或更长时间,则必须购买基于资源的承诺并将其附加到预留的资源。
-
预留期开始后,您可以按如下方式修改自动创建的预留:
-
您可以使用受预留约束的预配模型,该模型具有以下优势:
您更有可能获得 GPU。
除了附加到虚拟机的承诺之外,您还可以享受 vCPU 和 GPU 最高 53% 的折扣。
如何在 AI Hypercomputer 中使用未来预留
如需使用未来预留创建虚拟机或集群,您必须完成以下步骤:
-
申请预留容量 。您需要联系您的客户支持团队并指定要预留的 资源。Google 会根据可用性为您创建预留请求草稿 。如果看起来正确,您可以提交该草稿。 Google Cloud 会立即批准 预留请求。
如需查看相关说明,请参阅 预留容量。
-
消耗预留的资源。在您选择的预留期开始时, 您可以使用预留创建虚拟机或集群。
如需了解创建虚拟机或集群的不同方法,请参阅 部署选项概览。
在日历模式下使用未来预留
如需运行需要密集分配资源的短时分布式工作负载,您可以 申请使用计算资源,预留时长最长为 90 天。在该时间段内,您可以独占访问预留的资源 ,并且可以使用这些资源创建虚拟机或集群。在 预留期结束时,Compute Engine 会执行以下操作:
- Compute Engine 会删除预留。
- 根据您为虚拟机指定的 终止操作 ,Compute Engine 会停止或删除使用该 预留的所有虚拟机。
适合日历模式下未来预留的工作负载
日历模式下的未来预留非常适合以下工作负载:
模型预训练
模型微调
模拟
推理
日历模式下未来预留的主要特征
日历模式下的未来预留具有以下特征:
-
您可以预留 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)机器类型。这些机器 会密集分配,以最大限度地减少网络延迟。
-
您可以查看未来可用性,并预留最多 80 个虚拟机,预留时长最长为 90 天。然后,您可以使用预留的资源创建虚拟机,直至预留期结束为止。
-
预留期开始后,您可以按如下方式修改自动创建的预留:
-
您可以使用受预留约束的预配模型,该模型具有以下优势:
您更有可能获得 GPU。
您可以享受 vCPU 和 GPU 最高 53% 的折扣。
如何在日历模式下使用未来预留
如需在日历模式下使用未来预留创建虚拟机或集群,您必须完成以下 步骤:
-
查看资源可用性 。您可以查看要预留的 资源的未来可用性。创建预留请求时,您可以指定您已确认可用的资源的 数量、类型和预留时长。此 操作会增加批准您的请求的可能性 Google Cloud 。
如需查看相关说明,请参阅 查看资源的未来可用情况。
-
预留容量 。您可以为未来日期和 时间。 Google Cloud 会在两分钟内批准预留请求。如果获得批准, Compute Engine 会预留容量。在您选择的交付日期,您可以使用 预留的资源创建虚拟机或集群。
如需查看相关说明,请参阅 为 GPU 虚拟机或 TPU 创建预留请求。
-
消耗预留的资源。在您选择的预留期开始时, 您可以使用预留创建虚拟机或集群。
如需了解创建虚拟机或集群的不同方法,请参阅以下内容:
- 如需创建 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)虚拟机,请参阅 部署选项概览。
- 如需创建启用了 GPUDirect-TCPX 的 A3 Mega 或 A3 High(8 个 GPU)虚拟机,请参阅 创建启用了 GPUDirect-TCPX 的 A3 虚拟机。
使用灵活启动
如需运行需要密集分配资源的短时工作负载,您可以使用灵活启动申请使用计算 资源,预留时长最长为 7 天。只要有资源可用, Compute Engine 就会创建您请求数量的虚拟机。您可以停止独立的 灵活启动虚拟机,但无法停止托管式实例 组 (MIG) 通过规模调整请求创建的灵活启动虚拟机。灵活启动虚拟机会一直存在,直到您 将其删除,或者直到 Compute Engine 在虚拟机的运行时长结束时将其删除。
适合灵活启动的工作负载
灵活启动非常适合可以随时启动的工作负载,例如:
小型模型预训练
模型微调
模拟
批量推理
灵活启动的主要特征
灵活启动具有以下特征:
-
您可以请求任何 GPU 机器类型,但 A4X Max 和 A4X 除外。Compute Engine 会尽力尝试密集分配机器,这可能会导致灵活启动虚拟机在同一可用区内相距很远。如需控制虚拟机的布置 并最大限度地减少网络延迟,您可以执行以下操作:
- 对于独立的灵活启动虚拟机,请将 紧凑布置政策应用于虚拟机。
- 对于具有目标大小的 MIG,请应用 工作负载政策。
您可以使用灵活启动预配模型,该模型具有以下优势:
您更有可能获得 GPU。
您可以享受 vCPU、内存和 GPU 最高 53% 的折扣。
如何使用灵活启动
如需使用灵活启动创建虚拟机或集群,您必须完成以下步骤:
-
可选:创建紧凑布置政策或工作负载政策 。您可以 创建紧凑布置政策(适用于独立虚拟机或批量虚拟机)或工作负载政策 (适用于 MIG)来指定虚拟机邻近性。您选择的配置会影响政策支持的机器类型和 虚拟机数量。
-
创建灵活启动虚拟机 。当您请求创建虚拟机后, Compute Engine 会根据可用性安排虚拟机创建。当容量可用时,Compute Engine 会预配灵活启动虚拟机。虚拟机会一直运行,直到 被您停止或删除,或者直到其运行时长结束。
如需查看相关说明,请参阅部署选项 概览。
使用 Spot
如需运行容错工作负载,您可以根据 可用性立即获取计算资源。您可以以尽可能低的价格获取资源。但是,Compute Engine 可能会随时抢占虚拟机来收回容量。
适合 Spot 的工作负载
Spot 非常适合可接受中断的工作负载,例如:
批处理
高性能计算 (HPC)
持续集成和持续部署 (CI/CD)
数据分析
媒体编码
在线推理
Spot 的主要特征
Spot 具有以下特征:
-
您可以创建任何 GPU 机器类型,但 A4X Max 和 A4X 除外。密集分配取决于 资源可用性。为确保更紧密的分配,您可以将 紧凑布置政策 应用于虚拟机。
-
您可以立即创建虚拟机。虚拟机会一直运行,直到被您停止或删除,或者直到 Compute Engine 抢占虚拟机以收回容量。
-
您可以使用 Spot 预配模型,该模型具有以下优势:
您更有可能获得 GPU。
多种机器类型、GPU、TPU 和本地 SSD 磁盘均可享受最高 91% 的折扣。
如何使用 Spot
如需使用 Spot 创建虚拟机或集群,您必须完成以下步骤:
-
可选:创建紧凑布置政策或工作负载政策 。您可以 创建紧凑布置政策(适用于独立虚拟机或批量虚拟机)或工作负载政策 (适用于 MIG)来指定虚拟机邻近性。您选择的配置会影响政策支持的机器类型和 虚拟机数量。
-
创建 Spot 虚拟机 。您可以根据 可用性创建任意数量的虚拟机。虚拟机会一直运行,直到被您停止或删除,或者被 Compute Engine 抢占以收回容量。
如需查看相关说明,请参阅部署选项 概览。