
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
vime 强化学习训练框架使用指南 vime 是专为大规模语言模型(LLM)和视觉语言模型(VLM)强化学习训练设计的开源框架,由GLM团队开发。该框架基于Megatron和vLLM构建,支持多种RL算法和训练场景。 核心功能: 支持GRPO、GSPO、Reinforce++、PPO等多种RL算法 提供异步训练架构,优化GPU利用率 支持MoE模型训练和专家并行 集成vLLM推理引擎实现高吞吐量数据生成 支持多轮交互、工具调用等Agent场景 典型应用场景: 数学推理能力强化(使用规则奖励) 代码生成与编程





















