Microscaling (MX) Formats: MXFP4,NVFP4

原创已于 2025-11-13 14:53:07 修改 · 3.4k 阅读

·

32

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#2024

于 2025-08-21 00:27:54 首次发布

模型部署专栏收录该内容

41 篇文章

订阅专栏

Contents

MXFP4
NVFP4
References

本文主要介绍目前已被 Blackwell GPU 硬件支持的两种 FP4 格式：MXFP4 和 NVFP4；目前 vLLM 也已经实现了对 NVFP4 WA 量化的支持

MXFP4

Microscaling (MX). MX-compliant format 如下所示，每 $k$ 个数据 ( $P_1,...,P_k$ ) 共享一个 scale $X$ ，这 $k$ 个数据称为一个 block，每个 block 需要占用 $(w + k d)$ bits；这 $k$ 个数据的真实数值由 $v_i=XP_i$ 得到，实际数值范围与 FP32 一致
Concrete MX-compliant Formats. 重点看 MXFP4，其 block size 为 32，也就是说每 32 个数据共享相同 scale， $P_i$ 数据类型为 FP4 (E2M1)，scale 数据类型为 FP8 (E8M0) (无符号位)
FP4 (E2M1) 的标准定义如下，正规数 (指数部分 $E > 0$ ) 计算公式为 $v=(-1)^S\times 2^{E-bias}\times(1+2^{-m}\times M)$ ，非正规数 (指数部分 $E = 0$ ) 计算公式为 $v=(-1)^S\times 2^{1-bias}\times(0+2^{-m}\times M)$ ，因此 FP4 (E2M1) 数值依次为 $0, 0.5, 1, 1, 2, 3, 4, 6$ ，数值范围为 $[- 6, 6]$
FP8 (E8M0) 的标准定义如下，数值范围为 $2^{127},2^{127}]$
MXFP4 Quantization Procedure. (1) Block Scaling. block scale 可以直接由 $s_{dec,e8m0}=\text{e8m0}\left(\frac{\text{amax}(\mathbf P)}{6}\right)$ ， $s_{enc}=\frac{1}{\text{fp16}(s_{dec})}$ 得到，但由于 E8M0 精度较差，如果 $s_{dec}$ 向下取整，那么就可能会有大量 outliers overflow，从而影响训练稳定性，因此通常需要对 $s_{dec}$ 向上取整，但这样也会导致一部分的 FP4 range 没有利用到，变相地减少了 FP4 的动态表征范围；(2) Conversion. 假设输入都已量化到 FP4，单个 block 内的计算过程如下：
$s^x_{dec,e8m0}\cdot s^y_{dec,e8m0}\cdot \sum_{k\in b}(\hat x_k\cdot \hat y_k)$ 其中， $\hat x_k=q(x_k\cdot s_{enc}^x)$ ， $\hat y_k=q(y_k\cdot s_{enc}^y)$ ， $q(\cdot)$ 为 FP4 量化函数，目前 Blackwell GPUs 支持多种 FP4 取整方式，包括 round-to-nearest-even (Tie-breaking rule: If the value is exactly midway between two representable numbers (a “tie”), it rounds to the one with an even mantissa) 和 stochastic rounding

NVFP4

NVFP4 相比 MXFP4， $P_i$ 同样采用了 FP4 (E2M1) 的数据类型，但不同的是采用了更小的 block size (16)，相同 block 内共享一个 FP8 (E4M3) scaling，通过采用非指数的高精度缩放因子，NVFP4 能更准确地匹配块内值分布，减少量化误差，但代价是会极大地缩小数据表示范围；为了扩充数据表示范围，NVFP4 采用了双层缩放策略，张量内的所有数据还同时共享一个全局的 FP32 scaling，使得 NVFP4 可以覆盖接近 FP32 的动态范围
NVFP4 Quantization Procedure. block scale 用于将数据映射到 FP4 (E2M1) 能表示的范围内，可以由 $s_{dec,b}=\frac{\text{amax}(\mathbf B)}{6}$ 得到，其中 $\mathbf B$ 为一个大小为 16 的 block. NVFP4 本质上是对所有 local scale $s_{dec,b}$ 一起做了 per-tensor sym FP8 (E4M3) 量化，对应的 scale 即为 FP32 的 global scale. 最大的 local scale 为 $\frac{\text{amax}(\mathbf X)}{6}$ ，其中 $\mathbf X$ 为整个 tensor，因此 global scale 为 $s_{dec}=\frac{\text{amax}(\mathbf X)}{6\cdot 448}$ ， $s_{enc}=\frac{6\cdot 448}{\text{amax}(\mathbf X)}$ (也可以看作是 global scale 将数据映射到了 FP4 (E2M1) $\times$ FP8 (E4M3) 能表示的范围内)，这样 FP8 local scale 为 $s_{dec,b,e4m3}=\text{e4m3}(s_{dec,b}\cdot s_{enc})$ ， $s_{enc,b}=1/(\text{fp32}(s_{dec,b,e4m3})\cdot s_{dec})$ ；需要注意的是，local scale 支持 dynamic/static 计算，而 global scale 只支持静态计算，对于激活值量化，global scale 作用于所有激活值，因此需要提前在校准集上离线校准
NVFP4 Computation. 假设输入都已量化到 FP4，单个 block 内的计算过程如下：
$s^x_{dec}\cdot s^y_{dec}\cdot\left(s^x_{dec,b,e4m3}\cdot s^y_{dec,b,e4m3}\cdot \sum_{k\in b}(\hat x_k\cdot \hat y_k)\right)$ 其中， $\hat x_k=q(x_k\cdot s_{enc,b}^x)$ ， $\hat y_k=q(y_k\cdot s_{enc,b}^y)$ ， $q(\cdot)$ 为 FP4 量化函数，目前 Blackwell GPUs 支持多种 FP4 取整方式，包括 round-to-nearest-even (Tie-breaking rule: If the value is exactly midway between two representable numbers (a “tie”), it rounds to the one with an even mantissa) 和 stochastic rounding

从下图中可以看到，NVFP4 量化在大规模 LLM (>32B) 上可以达到接近无损的效果，DeepSeek 量化模型开源在了 huggingface；需要注意的是，对于 DeepSeek-R1 部分层仍然使用高精度，例如 QKV GEMM 保持为 FP16，Attention 和 KV Cache 均使用 FP8 量化；此外，对于 Qwen3-235B，QKV GEMM 也可以量化到 NVFP4，仅 Attention 和 KV Cache 需要使用 FP8 量化

References

Open Compute Project • OCP Microscaling Formats (MX) Specification
PyTorch emulation library for Microscaling (MX)-compatible data formats: https://github.com/microsoft/microxcaling
Introducing NVFP4 for Efficient and Accurate Low-Precision Inference
从 Blackwell 到 Apple M 系列：MXFP4 低精度格式全解析与跨平台运行指南
Abecassis, Felix, et al. “Pretraining Large Language Models with NVFP4.” arXiv preprint arXiv:2509.25149 (2025).

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。