A6000 & A800 跑出来的效果不同(同环境、同数据集、同代码、同cuda)
排除了 系统环境编码、NCCL环境、Ray分布式环境、版本不对齐等问题
关注服务器本身:
A800属于Hopper系列GPU,默认启用vLLM=v1(有新内核)
A6000属于Ampere,不启用,fallback到v0内核
最终export VLLM_USE_V1=0解决
之前在H20的卡(Hopper系列)也work,可能是因为Hopper架构比A800更新,使用了v1
CoPaw
内置vllm部署的Qwen3-4B-Instruct-2507模型,agentscope开源的类似openclaw个人助手。
A6000 & A800 跑出来的效果不同(同环境、同数据集、同代码、同cuda)
排除了 系统环境编码、NCCL环境、Ray分布式环境、版本不对齐等问题
关注服务器本身:
A800属于Hopper系列GPU,默认启用vLLM=v1(有新内核)
A6000属于Ampere,不启用,fallback到v0内核
最终export VLLM_USE_V1=0解决
之前在H20的卡(Hopper系列)也work,可能是因为Hopper架构比A800更新,使用了v1
您可能感兴趣的与本文相关的镜像
CoPaw
内置vllm部署的Qwen3-4B-Instruct-2507模型,agentscope开源的类似openclaw个人助手。
5789
1829
2373

被折叠的 条评论
为什么被折叠?
