
一、文章主要内容总结
该研究聚焦于统一多模态大语言模型(ULMs)的理解与生成能力协同提升,提出了一种基于协同强化学习(CoRL)的框架,核心内容如下:
- 研究背景:现有多模态模型的强化学习应用多集中于单任务(如理解任务的推理增强),而ULMs的跨任务协同优化(同时提升理解与生成能力)尚未被充分探索,且依赖大规模有监督数据的问题亟待解决。
- 核心框架:CoRL采用“基础构建-专项优化”两阶段范式:
- 第一阶段(统一RL阶段):基于群体相对策略优化(GRPO)算法,融合双向循环一致性奖励、文本-图像匹配奖励等可验证奖励,对理解和生成任务进行联合优化,奠定跨任务协同基础。
- 第二阶段(精细化RL阶段):针对文本到图像生成、多模态问答(选择题/开放式问题)设计专项奖励和数据集,进行任务特异性增强,同时引入KL散度约束保证优化稳定性。
- 实验验证:以Janus-Pro为基线模型,训练得到ULM-R1。在3个文本到图像生成数据集(GenEval、WISE、DPG-Bench)上平均提升7%,在9个多模态理解基准(MMMU、WeMath、LogicVista等)上平均提升23%,尤其在数学推理(WeMath +15.2)和逻辑推理(LogicVista +10.6)任务中表现突出。<

订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



