华为昇腾 300I Duo 部署千问 3.5 显存占用精确计算(含 KV Cache)

下面是一份可直接用于工程部署的“显存占用精确计算公式(含 KV Cache)”,并结合 Qwen 系列模型 给出可复现的计算方法。 所有公式均来自可信来源,并已在大模型工程中广泛使用。 (KV Cache 计算依据:知乎专栏、阿里云开发者社区等)

一、显存占用 = 模型权重 + KV Cache + 运行时开销(workspace)

✔ 1. 模型权重(固定)

FP16 权重大小 = 模型参数量 × 2 bytes 例如 Qwen3.5‑32B ≈ 60GB(FP16)

✔ 2. KV Cache(动态,推理时增长,是显存大头)

(1)单 token 的 KV Cache 大小公式(最重要)

KVper token=2×(hidden_sizenum_heads×num_kv_heads)×num_layers×dtype_bytes

解释:

  • 2 = K + V

  • hidden_size = 隐层维度

  • num_heads = 注意力头数

  • num_kv_heads = KV 头数(Qwen 系列常用 GQA)

  • num_layers = Transformer 层数

  • dtype_bytes = FP16/BF16=2 bytes

该公式来自阿里云开发者社区的 KV Cache 显存估算文档。

(2)总 KV Cache 显存

KVtotal=KVper token×(prompt_len+gen_len)×batch_size

该公式来自知乎专栏对 KV Cache 的显存估算方法。

✔ 3. 运行时开销(w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

evering

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值