选择使用选项

本文档介绍了在 AI Hypercomputer 上获取和使用计算资源的不同方式,称为“使用选项” 。选择最符合您的工作负载、时长和费用需求的选项。

每个使用选项都指定了以下内容:

  • 您如何访问容量以创建虚拟机或集群。

  • 底层 预配模型, 该模型决定了虚拟机的可获取性、生命周期和价格。

使用选项比较

下表总结了使用选项之间的主要差异:

使用选项 AI Hypercomputer 中的未来预留 最长 90 天的未来预留(日历模式) 灵活启动 Spot
支持的机器 A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High 具有 8 个 GPU 的 A4、A3 Ultra、A3 Mega 或 A3 High A4X Max 和 A4X 以外的任何 GPU 机器 A4X Max 和 A4X 以外的 任何 GPU 机器
生命周期 无限制 最长 90 天 最长 7 天 无限制(但可能会被抢占
抢占式
容量保证 非常高 。如果 Google Cloud 批准了您的预留请求,则 您可以极高地保证 Compute Engine 会预配您请求的容量。 非常高 。如果 Google Cloud 批准了您的预留请求,则 您可以极高地保证 Compute Engine 会预配您请求的容量。 尽力而为 。Compute Engine 会尽力尝试安排预配您请求的容量。 尽力而为 。Compute Engine 会尽力尝试预配您请求的容量。
Quota Google Cloud 在提供容量之前自动增加配额。 不消耗配额。 消耗抢占式配额 消耗抢占式配额
价格
资源分配 密集 密集 尽力而为地密集( 紧凑政策 工作负载政策;可选) 标准 (紧凑 政策 可选)
预配模型 受预留约束 受预留约束 灵活启动 Spot
创建方法

如需创建虚拟机,您必须执行以下操作:

  1. 通过联系您的 客户支持团队来预留容量。
  2. 在您选择的日期和时间,您可以使用预留容量来创建虚拟机和 集群,方法是使用 部署选项概览中介绍的任何方法。

如需创建虚拟机,您必须执行以下操作:

  1. 在日历模式下创建未来预留
  2. 在您选择的日期和时间,您可以使用预留容量来创建虚拟机和 集群,方法是使用 部署选项概览中介绍的任何方法。

当您请求创建灵活启动虚拟机时,Compute Engine 会根据可用性安排虚拟机创建。当容量可用时, Compute Engine 会预配灵活启动虚拟机。如需创建 灵活启动虚拟机,请使用 部署选项概览中介绍的任何方法。

您可以使用 部署选项概览中介绍的任何方法立即创建虚拟机。

选择使用选项

使用以下流程图选择最符合您的工作负载的使用选项:

一张流程图,其中显示了 AI Hypercomputer 的使用选项。

上图中的问题如下:

  1. 您是否需要超过 90 天的容量?

  2. 您是否需要预留容量?

  3. 您的工作负载是否具有容错能力?

在 AI Hypercomputer 中使用未来预留

如需运行需要密集分配资源的长时间运行的大规模分布式工作负载, 您可以申请在未来特定时间段使用计算资源。在该时间段内,您可以独占访问 预留的资源,并且可以使用这些资源创建虚拟机或 集群。在预留期结束时,Compute Engine 会执行以下操作:

  • Compute Engine 会删除预留。
  • 根据您为虚拟机指定的 终止操作 ,Compute Engine 会停止或删除使用该 预留的所有虚拟机。

适合 AI Hypercomputer 中未来预留的工作负载

未来预留非常适合以下工作负载:

  • 预训练基础模型

  • 多主机基础模型推断

AI Hypercomputer 中未来预留的主要特征

未来预留具有以下特征:

如何在 AI Hypercomputer 中使用未来预留

如需使用未来预留创建虚拟机或集群,您必须完成以下步骤:

  1. 申请预留容量 。您需要联系您的客户支持团队并指定要预留的 资源。Google 会根据可用性为您创建预留请求草稿 。如果看起来正确,您可以提交该草稿。 Google Cloud 会立即批准 预留请求。

    如需查看相关说明,请参阅 预留容量

  2. 消耗预留的资源。在您选择的预留期开始时, 您可以使用预留创建虚拟机或集群。

    如需了解创建虚拟机或集群的不同方法,请参阅 部署选项概览

在日历模式下使用未来预留

如需运行需要密集分配资源的短时分布式工作负载,您可以 申请使用计算资源,预留时长最长为 90 天。在该时间段内,您可以独占访问预留的资源 ,并且可以使用这些资源创建虚拟机或集群。在 预留期结束时,Compute Engine 会执行以下操作:

  • Compute Engine 会删除预留。
  • 根据您为虚拟机指定的 终止操作 ,Compute Engine 会停止或删除使用该 预留的所有虚拟机。

适合日历模式下未来预留的工作负载

日历模式下的未来预留非常适合以下工作负载:

  • 模型预训练

  • 模型微调

  • 模拟

  • 推理

日历模式下未来预留的主要特征

日历模式下的未来预留具有以下特征:

  • 您可以预留 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)机器类型。这些机器 会密集分配,以最大限度地减少网络延迟。

  • 您可以查看未来可用性,并预留最多 80 个虚拟机,预留时长最长为 90 天。然后,您可以使用预留的资源创建虚拟机,直至预留期结束为止。

  • 预留期开始后,您可以按如下方式修改自动创建的预留:

  • 您可以使用受预留约束的预配模型,该模型具有以下优势:

    • 您更有可能获得 GPU。

    • 您可以享受 vCPU 和 GPU 最高 53% 的折扣。

如何在日历模式下使用未来预留

如需在日历模式下使用未来预留创建虚拟机或集群,您必须完成以下 步骤:

  1. 查看资源可用性 。您可以查看要预留的 资源的未来可用性。创建预留请求时,您可以指定您已确认可用的资源的 数量、类型和预留时长。此 操作会增加批准您的请求的可能性 Google Cloud 。

    如需查看相关说明,请参阅 查看资源的未来可用情况

  2. 预留容量 。您可以为未来日期和 时间。 Google Cloud 会在两分钟内批准预留请求。如果获得批准, Compute Engine 会预留容量。在您选择的交付日期,您可以使用 预留的资源创建虚拟机或集群。

    如需查看相关说明,请参阅 为 GPU 虚拟机或 TPU 创建预留请求

  3. 消耗预留的资源。在您选择的预留期开始时, 您可以使用预留创建虚拟机或集群。

    如需了解创建虚拟机或集群的不同方法,请参阅以下内容:

使用灵活启动

如需运行需要密集分配资源的短时工作负载,您可以使用灵活启动申请使用计算 资源,预留时长最长为 7 天。只要有资源可用, Compute Engine 就会创建您请求数量的虚拟机。您可以停止独立的 灵活启动虚拟机,但无法停止托管式实例 组 (MIG) 通过规模调整请求创建的灵活启动虚拟机。灵活启动虚拟机会一直存在,直到您 将其删除,或者直到 Compute Engine 在虚拟机的运行时长结束时将其删除。

适合灵活启动的工作负载

灵活启动非常适合可以随时启动的工作负载,例如:

  • 小型模型预训练

  • 模型微调

  • 模拟

  • 批量推理

灵活启动的主要特征

灵活启动具有以下特征:

  • 您可以请求任何 GPU 机器类型,但 A4X Max 和 A4X 除外。Compute Engine 会尽力尝试密集分配机器,这可能会导致灵活启动虚拟机在同一可用区内相距很远。如需控制虚拟机的布置 并最大限度地减少网络延迟,您可以执行以下操作:

  • 您可以使用灵活启动预配模型,该模型具有以下优势:

    • 您更有可能获得 GPU。

    • 您可以享受 vCPU、内存和 GPU 最高 53% 的折扣。

如何使用灵活启动

如需使用灵活启动创建虚拟机或集群,您必须完成以下步骤:

  1. 可选:创建紧凑布置政策或工作负载政策 。您可以 创建紧凑布置政策(适用于独立虚拟机或批量虚拟机)或工作负载政策 (适用于 MIG)来指定虚拟机邻近性。您选择的配置会影响政策支持的机器类型和 虚拟机数量。

  2. 创建灵活启动虚拟机 。当您请求创建虚拟机后, Compute Engine 会根据可用性安排虚拟机创建。当容量可用时,Compute Engine 会预配灵活启动虚拟机。虚拟机会一直运行,直到 被您停止或删除,或者直到其运行时长结束。

如需查看相关说明,请参阅部署选项 概览

使用 Spot

如需运行容错工作负载,您可以根据 可用性立即获取计算资源。您可以以尽可能低的价格获取资源。但是,Compute Engine 可能会随时抢占虚拟机来收回容量。

适合 Spot 的工作负载

Spot 非常适合可接受中断的工作负载,例如:

  • 批处理

  • 高性能计算 (HPC)

  • 持续集成和持续部署 (CI/CD)

  • 数据分析

  • 媒体编码

  • 在线推理

Spot 的主要特征

Spot 具有以下特征:

  • 您可以创建任何 GPU 机器类型,但 A4X Max 和 A4X 除外。密集分配取决于 资源可用性。为确保更紧密的分配,您可以将 紧凑布置政策 应用于虚拟机。

  • 您可以立即创建虚拟机。虚拟机会一直运行,直到被您停止或删除,或者直到 Compute Engine 抢占虚拟机以收回容量。

  • 您可以使用 Spot 预配模型,该模型具有以下优势:

    • 您更有可能获得 GPU。

    • 多种机器类型、GPU、TPU 和本地 SSD 磁盘均可享受最高 91% 的折扣。

如何使用 Spot

如需使用 Spot 创建虚拟机或集群,您必须完成以下步骤:

  1. 可选:创建紧凑布置政策或工作负载政策 。您可以 创建紧凑布置政策(适用于独立虚拟机或批量虚拟机)或工作负载政策 (适用于 MIG)来指定虚拟机邻近性。您选择的配置会影响政策支持的机器类型和 虚拟机数量。

  2. 创建 Spot 虚拟机 。您可以根据 可用性创建任意数量的虚拟机。虚拟机会一直运行,直到被您停止或删除,或者被 Compute Engine 抢占以收回容量。

如需查看相关说明,请参阅部署选项 概览